本文已收录于 机器学习笔记 系列,共计 20 篇,本篇是第 12 篇

衡量频繁项集的标准 支持度 支持度就是几个关联的数据在数据集中出现的次数占总数据集的比重,或者说几个数据关联出现的概率。一般取值为[0, 1]。 有两个想分析关联性的数据X和Y,则对应的支持度为: 支持度是一种重要度量,因为支持度很低的规则可能只是偶然出现。从商务角度来看,低支持度的规则多半也是无意 …

阅读全文 »

本文已收录于 机器学习笔记 系列,共计 20 篇,本篇是第 11 篇

聚类可以解决实际中的什么问题? 聚类是一种无监督学习方法,所谓无监督学习就是数据没有标签。 物以类聚人以群分,聚类顾名思义就是将一些属性相似的东西归结在一起。 现实中,例如银行对客户群,哪些客户是可以盈利的,而哪些客户是不仅不挣钱还要赔钱的。我们可以将他们划分出来,以便后续的营销使用。这就是客户群划 …

阅读全文 »

本文已收录于 机器学习笔记 系列,共计 20 篇,本篇是第 10 篇

分类树和回归树的区别 除了MSE还有MAE可以作为树的评价指标。   特征过多?   回归树效果 决策树不仅仅可以做分类问题、也可以做回归问题,它画出来的图大概长下面的样子: 他并不是一条直线而是有点像股票那样的曲折。 提示:一般我们做回归用的是、决策树做回归用的还是比较少的。 …

阅读全文 »

原因:缺少Graphviz 环境,Graphviz 仅仅用pip install 的方式下载是不够的,因为pip包仅仅是一个接口,还需要去Graphviz 的官网下载安装这个软件。 官网:http://www.graphviz.org/download/ 直接让软件帮我们配置好PATH: 目录你自行 …

阅读全文 »

我们通过开始菜单启动Jupyter Notebook默认是从C盘启动,打开后只显示C盘的文件夹。 如果想从任意位置启动或者从任意位置打开Jupyter Notebook文件。只需要先进入到文件夹。 如果浏览器未能自动打开,可以复制上面的网址手动在浏览器中访问:

本文已收录于 机器学习笔记 系列,共计 20 篇,本篇是第 9 篇

前序课程:集成方法 提升方法:将弱的可学习算法提升为强的可学习算法。其中提升方法是集成学习中的一种。   AdaBoost算法 准确的来说Adaboost是boosting的其中一种方法。采用了exponential loss function(其实就是用指数的权重)。 AdaBoost是 …

阅读全文 »

本文已收录于 机器学习笔记 系列,共计 20 篇,本篇是第 8 篇

前序文章:集成算法 Bagging算法(英语:Bootstrap aggregating,引导聚集算法),又称装袋算法,是机器学习领域的一种集成学习算法。   如何生成多个臭皮匠? 本质是放回式采样。 现在我们有一组数据,其中70%是训练数据,剩下的30%是测试数据。测试数据是为了验证我们 …

阅读全文 »

本文已收录于 机器学习笔记 系列,共计 20 篇,本篇是第 7 篇

前序课程:支持向量机 支持向量机:线性可分支持向量机与软间隔最大化 支持向量机:线性可分支持向量机与硬间隔最大化   提升决策树的准确性性能 在之前我们学习过决策树,现在我们考虑下如何提升决策树的准确性。 使用集成学习方法,集成学习方法有两个主要类别,分别是序列方法和并行方法。他们主要有代 …

阅读全文 »

本文已收录于 机器学习笔记 系列,共计 20 篇,本篇是第 6 篇

前序课程 支持向量机学习路线,请学习本节软间隔最大化之前先看之前的硬间隔最大化。支持向量机:线性可分支持向量机与硬间隔最大化   软间隔优化:解决过于“严格”划分问题 软间隔:数据中的噪音。 之前的方法过于“严格”,我们要求所有点都分的对,先分的对,再要求间隔最大。而现在,我们认为这个要求 …

阅读全文 »