import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
testSet = pd.read_table('testSet - 降维.txt',header=None)
0 | 1 | |
0 | -1 | -2 |
1 | -1 | 0 |
2 | 0 | 0 |
3 | 2 | 1 |
4 | 0 | 1 |
plt.scatter(testSet.iloc[:,0],testSet.iloc[:,1],marker = '.',c='black');
dataSet = testSet
# 计算均值
meanVals = dataSet.mean(0)
0 0.0 1 0.0 dtype: float64
# 去均值化,均值变为0
# 方法:将每一列的每个数据都减去均值。
meanRemoved = dataSet - meanVals
0 | 1 | |
0 | -1.0 | -2.0 |
1 | -1.0 | 0.0 |
2 | 0.0 | 0.0 |
3 | 2.0 | 1.0 |
4 | 0.0 | 1.0 |
# 验证:计算均值
0 0.0 1 0.0 dtype: float64
Ps:如果这里出现 x.xxxe-xxx ,注意这就是一个很小很小的数值,可以视为0,因为计算机对浮点数有精度限制所以不是0,它是很小的浮点数值,我们认为是0即可。(不懂的话去看计算机组成原理 浮点数的表示)
# 计算协方差矩阵,使用 numpy的cov函数
covMat = np.mat(np.cov(meanRemoved, rowvar=0, bias=True))
matrix([[1.2, 0.8], [0.8, 1.2]])
# 计算方差矩阵的特征值和右特征向量
eigVals,eigVects = np.linalg.eig(covMat)
# 返回特征值
array([2. , 0.4])
# P
matrix([[ 0.70710678, -0.70710678], [ 0.70710678, 0.70710678]])
# 对特征值排序,.argsort()函数默认从小到大排序
eigValInd = np.argsort(eigVals)
# 提取出最大的N个特征
eigValInd = eigValInd[:-(N+1):-1]
array([0], dtype=int64)
# 取出特征向量的第1列(从0开始计数)
redEigVects = eigVects[:,eigValInd]
matrix([[0.70710678], [0.70710678]])
# 去除均值后的数据矩阵*压缩矩阵 --> 转换到新的空间
lowDDataMat = np.mat(meanRemoved) * redEigVects #注意此处meanRemoved要转换成矩阵
matrix([[-2.12132034], [-0.70710678], [ 0. ], [ 2.12132034], [ 0.70710678]])