维度是什么?数据降维方法,降维的用途

本文已收录于 机器学习笔记 系列,共计 20 篇,本篇是第 14 篇

什么是维度?

一维度

  • 数组中:形如 arr[5] = [1, 2, 3, 4, 5]。
  • Series中:Series是一维数组,与Numpy中的一维array类似。

对于数组和Series来说,维度就是函数shape返回的结果,Series中函数shape中返回了几个数字,就是几维。

二维度:形如表

除外索引列,不分行列的叫一维(此时shape返回唯一的维度上的数据个数);有行列之分叫二维(shape返回行x列),也称为表。

表可以理解为Excel中的表一样,它最多只能是2维。因为3维的表没有用——人的大脑无法想象,也无法编辑。所以表必须像实体表格一样,至多有2维。

多维度:由多张表组成

多张表:当一个数组中存在2张3行4列的表时,shape返回的是(2, 3, 4)。

当数组中存在2组2张3行4列的表时,数据就是4维,shape返回(2, 2, 3, 4)。

一张表的维度:由特征数量决定

针对表来说,表是一个特征矩阵或者是DataFrame。它的维度是是样本的数量或特征的数量(可以理解为特征矩阵中列数量),一般无特别说明,指的都是特征的数量。除了索引之外,一个特征是一维,两个特征是二维,n个特征是n维。

一个图像的维度:由特征向量的数量决定

对图像来说,维度就是图像中特征向量的数量(即坐标轴数量)。

对于人类而言,我们无法想象出、也无法看到三维以上的坐标系。所以只有3维以下的数据,我们才能可视化画出来。

降维算法中的”降维“,指的是降低特征矩阵中特征的数量

目的有两个:

  1. 让算法运算更快,效果更好
  2. 数据可视化

 

如何降维?降维技术有哪些?

在降维技术中,PCA的应用是目前最为广泛的。在多元统计分析中,主成分分析(英语:Principal components analysis,PCA)是一种统计分析、简化数据集的方法。

后续会讲解奇异值分解SVD。

 

降低维度有哪些用途?

  1. 降低维度就是减少特征值。一个数据集中特征会有非常多,通过降低维度可以把关键特征提取,略去掉无效的特征,提高效率。
  2. 另一方面,有时候我们自己内部的数据有些字段、特征涉及到保密隐私,不方便公开出去可以经过降维后隐藏掉真实的意义,这样做也不会影响数据本身的价值,外界人士只要按照我们公开的特征建模即可,无需关心字段本身的含义。

作者: 高志远

高志远,23岁,男生,毕业于上海杉达学院电子商务系。

发表评论

邮箱地址不会被公开。