因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善。因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。
通常因子有以下几个特点:?因子个数远远少于原有变量的个数原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。?
因子能够反映原有变量的绝大部分信息因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。?
因子之间的线性关系并不显著由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。?因子具有命名解释性通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解
因子分析在各行各业的应用非常广泛,尤其是科研论文中因子分析更是频频出现。
【一、概念】
探讨具有相关关系的变量之间,是否存在不能直接观察到的,但对可观测变量的变化其支配作用的潜在因素的分析方法就是因子分析,也叫因素分析。通俗点:因子分析是寻找潜在的、起支配作用因子的方法。
【二、简单实例】
现在有 12 个地区的 5 个经济指标调查数据(总人口、学校校龄、总雇员、专业服务、中等房价),为对这 12 个地区进行综合评价,请确定出这 12 个地区的综合评价指标。点击下载
【三、解决方案】
1、spss因子分析
同一指标在不同地区是不同的,用单一某一个指标难以对12个地区进行准确的评价,单一指标智能反映地区的某一方面。所以,有必要确定综合评价指标,便于对比。因子分析是一个不错的选择,5 个指标即为我们分析的对象,我们希望从这5个可观测指标中寻找出潜在的因素,用这些具有综合信息的因素对各地区进行评价。下图是spss因子分析的操作界面,主要包括5方面的选项,变量区只能选择数值型变量,分类型变量不能进入该模型。另外,spss软件为了消除不同变量间量纲和数量级对结果的影响,在该过程中默认自动进行标准化处理,因此不需要对这些变量提前进行标准化处理。
2、描述统计选项卡
我们希望看到各变量的描述统计信息,要对比因子提取前后的方差变化,所以选定“单变量描述性”和“原始分析结果”;现在是基于相关矩阵提取因子,所以,选定相关矩阵的“系数和显著性水平“,比较重要的还有 KMO 和球形检验,通过KMO值,我们可以初步判断该数据集是否适合采用因子分析方法。比较糟糕的是,kmo结果有时并不会出现,这主要与变量个数和样本量大小有关。
3、抽取选项卡
在该选项卡中设置如何提取因子,提取因子的方法有很多,最常用的就是主成分法。因为参与分析的变量测度单位不同,所以选择“相关矩阵”,如果参与分析的变量测度单位相同,则考虑选用协方差矩阵。经常用到碎石图对于判断因子的个数很有帮助,一般都会选择该项。关于特征值,不想解释太多,这和显著性水平一样,都是统计学的一个基本概念。一般spss默认只提取特征值大于1的因子,但,我还可以通过自定义设置需要提取的因子个数。另外,收敛次数比较重要,可以从首次结果反馈的信息进行调整。