本文已收录于 机器学习笔记 系列,共计 20 篇,本篇是第 15 篇

现在我们已经学会了变换,剩下的问题是需要找到一组合适的基。 目标优化思路:找到一组最合适的基 去除平均值:减少计算量 PCA的最终目的是降维,得到前N个特征。所以数据本身的值并不是“很重要”。 我们为了减少计算量,将所有特征(每列)的均值变为0,达到减轻计算的目的。 举个例子,就好像我们要计算5个人 …

阅读全文 »

本文已收录于 机器学习笔记 系列,共计 20 篇,本篇是第 14 篇

什么是维度? 一维度 数组中:形如 arr[5] = [1, 2, 3, 4, 5]。 Series中:Series是一维数组,与Numpy中的一维array类似。 对于数组和Series来说,维度就是函数shape返回的结果,Series中函数shape中返回了几个数字,就是几维。 二维度:形如表 …

阅读全文 »

协方差 用途:衡量两个或两个以上数据间的独立性、相关性。 结论: 如果x和y的联合分布多分布在一三象限,x ⋅ y多为正数,则协方差为正,x和y正相关。 如果x和y的联合分布多分布在二四象限,x ⋅ y 多为负数,则协方差为负,x和y负相关。 如果x和y的几乎均匀地分散在所有象限中,则x ⋅ y 有 …

阅读全文 »

本文已收录于 机器学习笔记 系列,共计 20 篇,本篇是第 13 篇

为什么使用FP-growth? FP是频繁模式的缩写。Apriori算法需要多次扫描数据,I/O是很大的瓶颈。为了解决这个问题,FP Tree算法(也称FP Growth算法)采用了一些技巧,无论多少数据,只需要扫描两次数据集,因此提高了算法运行的效率。   FP树 什么是FP树? FP( …

阅读全文 »

本文已收录于 机器学习笔记 系列,共计 20 篇,本篇是第 12 篇

衡量频繁项集的标准 支持度 支持度就是几个关联的数据在数据集中出现的次数占总数据集的比重,或者说几个数据关联出现的概率。一般取值为[0, 1]。 有两个想分析关联性的数据X和Y,则对应的支持度为: 支持度是一种重要度量,因为支持度很低的规则可能只是偶然出现。从商务角度来看,低支持度的规则多半也是无意 …

阅读全文 »

本文已收录于 机器学习笔记 系列,共计 20 篇,本篇是第 11 篇

聚类可以解决实际中的什么问题? 聚类是一种无监督学习方法,所谓无监督学习就是数据没有标签。 物以类聚人以群分,聚类顾名思义就是将一些属性相似的东西归结在一起。 现实中,例如银行对客户群,哪些客户是可以盈利的,而哪些客户是不仅不挣钱还要赔钱的。我们可以将他们划分出来,以便后续的营销使用。这就是客户群划 …

阅读全文 »

本文已收录于 机器学习笔记 系列,共计 20 篇,本篇是第 10 篇

分类树和回归树的区别 除了MSE还有MAE可以作为树的评价指标。   特征过多?   回归树效果 决策树不仅仅可以做分类问题、也可以做回归问题,它画出来的图大概长下面的样子: 他并不是一条直线而是有点像股票那样的曲折。 提示:一般我们做回归用的是、决策树做回归用的还是比较少的。 …

阅读全文 »

原因:缺少Graphviz 环境,Graphviz 仅仅用pip install 的方式下载是不够的,因为pip包仅仅是一个接口,还需要去Graphviz 的官网下载安装这个软件。 官网:http://www.graphviz.org/download/ 直接让软件帮我们配置好PATH: 目录你自行 …

阅读全文 »

我们通过开始菜单启动Jupyter Notebook默认是从C盘启动,打开后只显示C盘的文件夹。 如果想从任意位置启动或者从任意位置打开Jupyter Notebook文件。只需要先进入到文件夹。 如果浏览器未能自动打开,可以复制上面的网址手动在浏览器中访问: