在用统计分析方法研究多变量的课题时,变量个数太多会增加课题的复杂性。人们往往希望变量个数较少而得到的信息较多。在很多情形,变量之间有一定的相关关系,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析即是对原先提出的所有变量,建立尽可能少的新变量,使得这些新变量两两不相关,并且尽可能保持原有的信息
主成分分析是设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法,也是数学上用来降维的一种方法。PCA经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面,但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给的数据,所以数据的准确性对分析结果影响很大.
PCA是最简单的以特征量分析多元统计分布的方法,这种运算可以被看作是揭露数据的内部结构,从而更好的解释数据的变量的方法。其结果可以理解为对原数据中的方差做出解释:哪一个方向上的数据值对方差的影响最大?换而言之,PCA提供了一种降低数据维度的有效办法:如果一个多元数据集能够在一个高维数据空间坐标系中被显现出来,那么PCA就能够提供一幅比较低维度的图像,这幅图像即为在讯息最多的点上原对象的一个‘投影’,这样就可以利用少量的主成分使得数据的维度降低了。主成分分析在分析复杂数据时尤为有用,比如人脸识别 |