基础准备
在社会生活的很多领域,都会对影响事物的多个因素(变量)进行观察,并收集大量的数据资料进行统计分析,期望能够得到事物的内在规律。然而,在做这些相关与回归分析的过程中常会遇到因素之间互相影响的共线性问题,从而导致分析结果的大误差,分析结果的不准确现象。
解决这个问题的主要方式就是主成分分析和因子分析。通过主成分分析和因子分析,能够将原来彼此关联的多个变量(因素)浓缩成彼此不相关的几个变量,同时保留原来变量(因素)所蕴含的大部分信息。这样的变量整合称为降维。
讲个段子,下面例题中将要分析的案例。通过测试一批年轻学员在百米,跳远,跳高,400米,1500米,标枪等10个项目的成绩,将这些成绩进行降维分析,得到互不相关的几个公因子(这些公因子可以根据与原项目的相关性,被解释为运动员的耐力,爆发力,弹跳等完全不同的核心运动能力,样本量越大,降维分析得到的公因子越能够被解释),然后根据年轻学员和梯队教练可以根据学员在这些公因子上的得分,来判断学员是否适合称为职业运动员以及选择哪个项目称为自己的主项。要知道,刘翔最开始是练跳高的,如果他没有改练跨栏……
下面首先介绍主成分分析。
主成分分析
主成分分析是借助正交变换,将相关的原始变量转化成不相关的新变量(公因子),并将特征值大于1的新变量定位主成分。可以结合下图的二元正交变换来理解正交变换的含义:
简单来说就是根据数据点的分布情况,将坐标轴旋转,使数据点的离差平方和最小,新坐标轴就是两个新变量。在这幅图中,原坐标轴也是正交的(不相关),实际情况经常是它们之间的夹角不等于90度。
统计学表述
主成分分析的原理可以用下面的推导方式进行表述:假定有n个样本,每个样本都受到k个变量的影响,例如,一个人的身体特征有身高,体重,三围等等,这样就可以构成一个样本矩阵:
处理过程(看不懂的看看上边的图):
1、通过原来的数据矩阵生成一个K*K的协方差矩阵;
2、将协方差矩阵正交变换,得到一一对应的k个特征值和k个特征向量;
3、特征向量与对应的旧变量的乘积之和就是新变量;
4、特征值代表它所对应的新变量蕴含原来数据信息的大小,一般选取特征值大于等于1的新变量为主成分,也就是说,在所有k个特征值中选取大小排名前m的特征值所对应的新变量为主成分。
主要统计量
如何判断主成分分析结果的好坏呢?这需要借助下面几个指标。
方差贡献率
它指的是一个主成分所能解释的方差占全部方差的比例。这个值越大,说明这个主成分综合原始变量信息的能力越强。如果前n个主成分的累积方差贡献率达到80%以上,就可以保留前n个主成分。
特征值
特征值被看作是衡量主成分影响力的重要指标,它代表其对应的主成分能够解释多少原始变量的信息。如果特征值小于1,表示该主成分解释力非常低,一般以特征值大于1位筛选主成分的标准。
适合度检验
确定数据是否适合进行主成分分析的常用检验方法有Bartlett球形检验和KMO取样适合度检验统计量。这两项指标考量的是原始变量之间的相关性,因为降维的前提是这几个变量之间有重叠的信息,这样才能提取出这几个变量之间共存的公因子。
Bartlett球形检验
SPSS将输出Bartlett球形检验的卡方统计量,自由度和显著性值。如果显著性值小于0.05,则认为相关系数矩阵不是单位矩阵,可以进行主成分分析。同时,卡方值越大,说明变量之间相关性越强。
KMO取样适合度检验统计量
KMO取样适合度检验统计量通过比较样本间的相关系数平方和和偏相关系数平方和的大小以检验样本是否适合进行主成分分析。如果变量之间的相关系数的绝对值较大,而偏相关系数绝对值较小,则表明变量之间的高度相关可能与第三变量有关,存在多元线性相关的可能性较大,适合进行主成分分析或因子分析。KMO统计量的取值为0~1,越接近1说明变量间的相关度越强而偏相关度越低,样本数据越适合做主成分分析和因子分析。
范例分析
省体工大队打算从一批青年运动员里选择优秀苗子。现在对这批运动员做10个项目的测试,这10个都是田径项目。34个运动员的10个项目的成绩如下。用主成分分析方法对这些运动员的核心能力进行说明。
(例题数据文件已经上传到QQ群中,需要的朋友可以前往下载)
分析步骤
1、选择菜单【分析】-【降维】-【因子分析】,打开对话框。将所有运动项目成绩变量选入到变量栏中,点击【描述】按钮,将原始分析结果,KMO和Bartlett的球形度检验选中。
2、点击【抽取】和【得分】按钮,按照下图进行选择。
3、【旋转】和【选项】的内容保持系统默认选择,最后点击【确定】,输出结果。
结果解释
1、KMO和Bartlett检验结果
从表中可以看出,KMO取样适合度检验统计量为0.788,说明案例中每个运动员的不同项目成绩之间的信息重叠程度比较高,能够进行主成分分析,分析结果可以作为参考信息。Bartlett球形检验的显著性p为0.000,也说明案例数据的相关性情况可以进行主成分分析。
2、公因子方差
公因子方差表示各变量所包含的信息能被提取的程度,也叫共同度。每个变量的起始值都为1,即100%;而提取表示该变量的方差能够被主成分所提取的程度。
3、总方差解释量和碎石图
上表是提取的主成分的总方差解释量。原来有10个项目的变量,通过正交变换,也产生10个新变量,每个新变量能够解释原变量的总方差比例不同,但是所有10个新变量的解释比例之和为100%。在这里,只提取特征值大于1的前两个新变量作为主成分,解释了71.034%的总方差,这个方差贡献率不是很高。
碎石图表示的是新变量的特征值情况,可以看到1号与2号,2号与3号新变量之间的特征值下降非常快,只有1号与2号特征值大于1,所以选取1号与2号新变量为主成分。
4、成分矩阵
成分矩阵表格给出了2个主成分的成分矩阵,也称因子载荷,实质是指各主成分和各原始变量的相关系数。可以将两个主成分用原变量表示出来:
主成分表达式中的相关系数绝对值越大,表示该主成分对原始变量的代表性越大。可以看出,第一主成分与撑杆跳高的相关系数最大;第二主成分与1500米的相关系数最大。从这个表格中会有一个有趣的发现,第一主成分可以解释为与跳跃和爆发力有关的能力,例如,跳远,跳高,铅球,撑杆跳的相关系数为正,第二主成分可以解释为与跑动和耐力有关的能力,例如四百米,1500米等运动的相关系数较大。当然这个解释不全面,例如,100米也需要强大的爆发力。所以需要加大样本量,提高主成分分析的准确性。
5、得分系数矩阵
得分系数矩阵展示的是每个项目在新变量中的得分系数,可以得出下面的得分函数:
只需将每个运动员在各个项目上的运动成绩进行标准化,然后代入到得分函数中,就可以得到每个运动员在每个新变量上的得分。每个运动员的在每个项目上的得分将会自动计算被保存在新生成的变量FAC1_1和FAC2_1中,如下图所示:
通过每个运动员在两个主成分上的得分,可以大概知道自己是否适合成为职业运动员,以及适合那些类型的项目,是需要速度和爆发力的运动,还是需要耐力的运动。
数据分析方法已经运用到几乎所有的运动项目的训练中,这是人类突破极限最强大的武器。每一次奥运记录,世界记录改写的背后,都有数据分析人员成功探索的笑容。
所有例题的数据文件都会上传到QQ群中,需要对照练习的朋友可以前往下载。
温馨提示:
SPSS教学视频,请点击:《SPSS入门基础》视频教程;
生活统计学QQ群:134373751,用于分享文章提到的各种案例资料、软件、数据文件等。支持各种资料的直接下载和百度云盘下载。
生活统计学微信交流群,用于各自行业的数据研究项目及其成果交流分享;由于人数大于100人,请添加微信possitive2,拉您入群。
数据分析咨询,请点击首页下方“互动咨询”板块,获取咨询流程!