数据预处理-白化

白化,Whitening,有些文献也将该过程称作Sphering

白化的目的是:

  • 特征之间相关性较低
  • 所有特征具有相同的方差

白化处理分PCA白化和ZCA白化,PCA白化保证数据各维度的方差为1,而ZCA白化保证数据各维度的方差相同。

PCA白化可以用于降维也可以去相关性,而ZCA白化主要用于去相关性,且尽量使白化后的数据接近原始输入数据。

该部分仅仅介绍ZCA白化。

首先展示原始的输入

第一步作中心化,使得每个维度的均值为,即

接下来求数据的协方差矩阵,根据协方差公式,有:

对求得的协方差矩阵特征分解,对于2维的输入,将所得的特征向量与中心化后的数据一同显示:

去相关过程,记住“实对称矩阵的特征向量矩阵是正交矩阵”,设特征向量组成的矩阵为,接下来就是将数据投影到特征向量,

最后作缩放,设协方差矩阵作特征分解后的特征值矩阵为:

缩放

数据的分布就变圆了一些,这也是为什么白化过程也成为Sphering的原因。