2.列出主成分表达式 Z1为急性炎症成分(X1转氨酶、X2肝大指数) Z2为慢性炎症成分(X3硫酸锌浊度 ) Z3为癌变成分(X4甲胎球蛋白 ) 3.求出因子载荷阵 4.主成分得分 标准化指标主成分还原为原始指标主成分 将该肝病患者的四项肝功能指标代入 原始指标主成分表达式: Z1=2.50865 Z2=-1.06626 Z3=-1.22943 该肝病患者可能为急性炎症。 五、主成分分析的应用 1.对原始指标进行综合 以互不相关的较少个综合指标反应众多原 始指标提供的信息。 主成分回归(解决多元共线问题)。 2.进行综合评价 3.进行探索性分析 利用因子载荷阵,找出影响各综合指标的 主要原始指标。 4.对样品进行分类 利用主成分得分对样品进行分类: Z1为急性炎症成分 Z2为慢性炎症成分 Z3为癌变成分 第二节 因子分析 Factor Analysis 一、因子分析基本思想 从分析多个可观测的原始指标的相关关系入手,找到支配这种相关关系的有限个不可 观测的潜在变量。是多元分析中处理降维的 一种统计方法。 如:脑部疾病患者的意识清醒状态可由语言能力、辩识能力、记忆能力、理解能力与 思维逻辑能力等可观测的指标反映。 二、因子分析数学模型 X1:收缩压 X2:舒张压 X3:心跳间隔 X4:呼吸间隔 X5:舌下温度 F1:交感神经 F2:副交感神经 common factor specific factor common factor Xi:观测指标(标准化数据) Fi:公因子 ei:特殊因子 aij:因子载荷(计算关键项) X = AF + e 三、因子模型的性质 矩阵A的统计意义 1.公共度(共性方差 ) 因子的共性方差 2.因子贡献与因子贡献率 矩阵A第j列元素 反映了第j个公 因子Fj对所有原始指标的影响; 数据标准化后全部原始指标的总方差为指 标个数m。 Fj对原始指标的方差贡献率 各因子的贡献 * 主 成 分 分 析 与 因 子 分 析 Principal Components Analysis & Factor Analysis 第二军医大学卫生统计学教研室 张罗漫 第20章 讲课内容: 第一节 主成分分析 第二节 因子分析 第一节 主成分分析 Principal Components Analysis 一、基本思想 数据的降维、数据的解释 将原来众多具有一定相关性的指标,组 合成一组新的相互无关的综合指标。 从中选取几个较少的综合指标尽可能多 的反映原来众多指标的信息。 这种既减少了指标的数目又抓住了主要矛 盾的做法有利于问题的分析和处理。 如何利用这些指标对每一儿童的生长发育 作出正确评价? 仅用单一指标: 结论片面; 没有充分利用原有数据信息。 利用所有指标: 各指标评价的结论可能不一致,使综合 评价困难; 工作量大。 找出几个综合指标(长度、围度、特体),这些综合指标是原始指标的线性组合,既保留了原始指标的信息,且互不相关。 各综合指标提供的“信息”量大小用其方差来衡量。 衡量一个指标的好坏除了正确性与精确性外,还必须能充分反映个体间的变异,一 项指标在个体间的变异越大,提供的信息 量越多。 二、数学模型及几何意义 Z = A X 第一主成分 在所有Zi中最大 第二主成分 …… 理论上主成分个数最多为m个(指标个数) 实际工作中确定的主成分个数总是小于m个 在所有Zi中为第2大。 无关,互相垂直: X1 X2 1 1 2 -2 -2 -1 -1 2 0 相关 变异 X1 X2 Z1 Z2 1 1 2 -2 -2 -2 -2 1 1 -1 -1 -1 -1 2 2 2 0 Z1 Z2 -2 -2 1 1 -1 -1 2 2 0 相关 变异 三、主成分的求法及性质 (一)主成分的求法 1. 对各原始指标值进行标准化 为了方便,仍用Xij表示Xij’。 标准化后的数据矩阵 X = 2. 求出X1 , X2 , … , Xm 的相关矩阵R R=Cov(X) = Pearson 相关系数 标准化后的协方差 协方差 3. 求出矩阵R的全部特征值(eigenvalue) ?i, 第i个主成分的组合系数ai1, ai2, ?, aim满 足方程组: (r11- ?i) ai1+ r12 ai2+ ?+ r1m aim =0 r21 ai1+ (r22- ?i) ai2+ ?+ r2m aim=0 ? rm1 ai1+ rm2 ai2+ ?+ (rmm- ?i) aim =0 (r11- ?i) ai1+ r12 ai2+ ?+ r1m aim =0 r21 ai1+ (r22- ?i) ai2+ ?+ r2m aim=0 ? rm1 ai1+ rm2 ai2+ ?+ (rmm- ?i) aim =0 ?i为矩阵R的第i个特征值, 共有m个非负特征值,由大到小的顺序排列为: ?1≥ ?2≥ ?≥ ?m≥0 ?i=Var(Zi) 4. 由以上方程组,求出相应于特征值 ?i 的 特征向量(eigenvector) (ai1 , ai2 , ? , aim)’ (二)主成分的性质 1.各主成分互不相关 2.主成分的贡献率与累积贡献率 (原始指标值标准化) (指标个数) 贡献率 累积贡献率 3.主成分个数的选取 (1)前k个主成分的累积贡献率 70%。 (2)主成分Zi的特征值?i ≥ 1。 4.因子载荷 (第i主成分Zi与第j原始指标Xi间相关系数) 5.样品的主成分得分 四、实例 1.主成分个数的选取 ?3很接近于1; ?3 与?2的贡献率相差不大,为25%左右, 若舍去?3不合理。 取前三个主成分。 * X1 = a11F1 + a12F2 + … + a1qFq +e1 X2 = a21F1 + a22F2 + … + a2qFq +e2 ( Xm = am1F1 + am2F2 + … + amqFq +em Z1 = a11 a12 … a1m X1 Z2 a21 a22 … a2m X2 ┇ ┇ ┇ … ┇ ┇ Zm am1 am2 … amm Xm X1 = a11 a12 … a1q F1 + e1 X2 a21 a22 … a2q F2 e2 ┇ ┇ ┇ … ┇ ┇ ┇ Xm am1 am2 … amq Fq em h12 = a211 + a212 + … + a21q h22 = a221 + a222 + … + a22q
主成分分析与因子分析(第20章).ppt
下载此电子书资料需要扣除0点,