E9 - Q1
这道题的核心在于建立 因子模型的线性方程表示 (Linear Model Representation) 与 概率生成模型表示 (Probabilistic Generative Model Representation) 之间的联系。
1. 涉及到的知识点 (Key Concepts)
在解决这个问题之前,我们需要复习以下几个关键的统计学概念,它们是推导的基础:
因子模型定义 (Factor Model Definition): 通常定义为 $X = \mu + Lz + \epsilon$。在本题的手写笔记中,为了简化推导,假设均值 $\mu = 0$。
- $X$: 观测变量 (Observed variables),维度为 $p \times 1$。
- $L$: 因子载荷矩阵 (Factor Loading Matrix),维度为 $p \times r$。
- $z$: 潜在因子 (Latent Factors),维度为 $r \times 1$。
- $\epsilon$: 误差项/特殊因子 (Error terms / Specific factors),维度为 $p \times 1$。
多元正态分布的性质 (Properties of Multivariate Normal Distribution):
- 线性变换 (Linear Transformation): 如果 $z$ 和 $\epsilon$ 是正态分布,那么它们的线性组合 $X$ 也是正态分布。
- 独立性假设 (Independence Assumption): 在因子分析中,通常假设潜在因子 $z$ 与误差项 $\epsilon$ 相互独立,且 $\epsilon$ 的分量之间也相互独立(即 $\Psi$ 是对角矩阵)。
条件正态分布公式 (Conditional Normal Distribution Formula): 这是笔记最后一步推导的核心。如果联合分布 $\begin{pmatrix} X \\ z \end{pmatrix}$ 服从多元正态分布:
$$ \begin{pmatrix} X \\ z \end{pmatrix} \sim \mathcal{N}_{p+r} \left( \begin{pmatrix} \mu_X \\ \mu_z \end{pmatrix}, \begin{pmatrix} \Sigma_{XX} & \Sigma_{Xz} \\ \Sigma_{zX} & \Sigma_{zz} \end{pmatrix} \right) $$那么条件分布 $X|z$ 也服从正态分布,其均值和协方差矩阵分别为:
$$ E[X|z] = \mu_X + \Sigma_{Xz}\Sigma_{zz}^{-1}(z - \mu_z) $$$$ \text{Var}(X|z) = \Sigma_{XX} - \Sigma_{Xz}\Sigma_{zz}^{-1}\Sigma_{zX} $$(你在 STA437 中应该经常用到这个性质)。
2. 讲解答案 (Step-by-Step Explanation)
你的手写笔记非常清晰地展示了从线性模型推导出条件分布的过程。我们按照你的笔记逻辑,一步步展开其中的矩阵计算细节。
第一步:定义模型与假设
笔记的最上方给出了出发点:
$$ X = Lz + \epsilon $$这里的假设是标准因子分析的假设:
- 因子分布: $z \sim \mathcal{N}_r(0, I_r)$ (标准正态分布,不相关且单位方差)。
- 误差分布: $\epsilon \sim \mathcal{N}_p(0, \Psi)$ (均值为0,协方差为 $\Psi$)。
- 独立性: $z$ 与 $\epsilon$ 独立。
第二步:推导 $X$ 的边缘分布 (Marginal Distribution of X)
笔记中写道:$X \sim \mathcal{N}(0, LL^T + \Psi)$。我们来验证一下这个均值和方差是怎么算出来的。
均值 $E[X]$: 利用期望的线性性质:
$$E[X] = E[Lz + \epsilon] = L \cdot E[z] + E[\epsilon] = L \cdot 0 + 0 = 0$$方差 $\text{Var}(X)$: 由于 $z$ 和 $\epsilon$ 独立,和的方差等于方差的和:
$$ \begin{aligned} \text{Var}(X) &= \text{Var}(Lz + \epsilon) \\ &= \text{Var}(Lz) + \text{Var}(\epsilon) \\ &= L \cdot \text{Var}(z) \cdot L^T + \Psi \quad (\text{使用性质 } \text{Var}(Ax) = A\Sigma A^T) \\ &= L \cdot I_r \cdot L^T + \Psi \\ &= LL^T + \Psi \end{aligned} $$这与你笔记中的结果一致。
第三步:推导 $X$ 和 $z$ 的联合分布 (Joint Distribution)
为了求 $X|z$,我们需要先写出 $X$ 和 $z$ 的联合分布。笔记中计算了协方差 $\text{cov}(X, z) = L$。我们展开计算一下这个协方差矩阵。
计算 $\text{Cov}(X, z)$:
$$ \begin{aligned} \text{Cov}(X, z) &= E[(X - \mu_X)(z - \mu_z)^T] \\ &= E[X z^T] \quad (\text{因为均值都为0}) \\ &= E[(Lz + \epsilon) z^T] \quad (\text{代入 } X = Lz + \epsilon) \\ &= E[Lzz^T + \epsilon z^T] \\ &= L \cdot E[zz^T] + E[\epsilon z^T] \end{aligned} $$- 因为 $z \sim \mathcal{N}(0, I)$,所以 $E[zz^T] = \text{Var}(z) = I$。
- 因为 $z$ 和 $\epsilon$ 独立,所以 $E[\epsilon z^T] = E[\epsilon]E[z^T] = 0 \cdot 0 = 0$。
所以:
$$ \text{Cov}(X, z) = L \cdot I = L $$
现在我们可以构建你笔记中间部分的那个联合分布矩阵:
$$ \begin{pmatrix} X \\ z \end{pmatrix} \sim \mathcal{N}_{p+r} \left( \begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} LL^T + \Psi & L \\ L^T & I_r \end{pmatrix} \right) $$这里对应笔记中的 $\Sigma_{XX} = LL^T+\Psi$, $\Sigma_{Xz} = L$, $\Sigma_{zX} = L^T$, $\Sigma_{zz} = I$。
第四步:推导条件分布 $X|z$ (Conditional Distribution)
这是证明的最后一步。我们使用条件正态分布公式。
笔记中的最后一行推导:
$$ X|z \sim \mathcal{N}_p(0 + L(z-0), \quad LL^T + \Psi - L I^{-1} L^T) $$让我们详细拆解一下:
条件均值 (Conditional Mean):
$$ \begin{aligned} E[X|z] &= \mu_X + \Sigma_{Xz}\Sigma_{zz}^{-1}(z - \mu_z) \\ &= 0 + L \cdot I^{-1} \cdot (z - 0) \\ &= Lz \end{aligned} $$直观理解:既然 $X = Lz + \epsilon$,如果你已经观察到了 $z$(即 $z$ 是已知的),那么 $Lz$ 就变成了一个常数项。剩下的随机性只来源于 $\epsilon$。由于 $\epsilon$ 的均值是 0,所以 $X$ 的期望就是 $Lz$。
条件方差 (Conditional Variance):
$$ \begin{aligned} \text{Var}(X|z) &= \Sigma_{XX} - \Sigma_{Xz}\Sigma_{zz}^{-1}\Sigma_{zX} \\ &= (LL^T + \Psi) - L \cdot I^{-1} \cdot L^T \\ &= LL^T + \Psi - LL^T \\ &= \Psi \end{aligned} $$直观理解:同理,如果 $z$ 是固定的常数,那么 $Lz$ 的方差为 0。$X$ 的方差完全由误差项 $\epsilon$ 决定,即 $\text{Var}(\epsilon) = \Psi$。
总结
通过上述推导,我们得出了:
$$ x|z \sim \mathcal{N}(Lz, \Psi) $$这就解释了为什么因子模型 $X = Lz + \epsilon$ 等价于你第一张图中给出的概率形式。
- 物理意义:我们在观测数据 $X$ 时,假设它是基于某个隐藏的因子 $z$ 产生的(均值为 $Lz$),并在其基础上添加了协方差为 $\Psi$ 的高斯噪声。这为后续使用 EM算法 (Expectation-Maximization) 来求解因子分析提供了概率基础。
E9 - Q2
这一题非常有意思,它触及了 因子分析 (Factor Analysis, FA) 和 主成分分析 (Principal Component Analysis, PCA) 之间最直接的联系。
虽然 FA 和 PCA 在统计学概念上是不同的(前者是生成模型,后者是降维技术),但在参数估计的方法上,有一种特定的方法叫做 “Principal Component Method” (主成分法) 用来估计因子载荷矩阵 $L$。这道题就是在验证这种特定方法下的性质。
我们还是分两部分来拆解:
1. 涉及到的知识点 (Key Concepts)
要理解这道题,需要搞清楚以下三个核心概念的定义和矩阵性质:
A. 总方差 (Total Variance)
在多元统计中,数据的“总变异”通常定义为协方差矩阵 $\Sigma$ 的迹 (Trace)。
$$ \text{Total Variance} = \text{tr}(\Sigma) = \sum_{k=1}^p \sigma_{kk} = \sum_{j=1}^p \lambda_j $$(注:协方差矩阵的迹等于其所有对角线元素之和,也等于其所有特征值之和。)
B. 因子载荷矩阵的列 (Columns of Loading Matrix)
因子模型 $X = Lz + \epsilon$ 中,协方差矩阵被分解为:
$$ \Sigma = LL^T + \Psi $$其中 $L = (\ell_1, \ell_2, \dots, \ell_r)$ 是一个 $p \times r$ 的矩阵。
- $\ell_j$ (L 的第 j 列): 代表第 $j$ 个公共因子 (Common Factor) 对所有 $p$ 个观测变量的影响权重。
- 第 $j$ 个因子解释的总方差量化为该列向量的模的平方,即 $\|\ell_j\|^2$。
C. FA via PCA (主成分法估计因子)
这是解题的关键假设。当我们使用 PCA 方法来做 FA 时,我们是在寻找一个能够近似重构 $\Sigma$ 的低秩矩阵。 根据谱分解定理 (Spectral Decomposition),协方差矩阵可以写成:
$$ \Sigma = \sum_{i=1}^p \lambda_i v_i v_i^T $$其中 $(\lambda_i, v_i)$ 是特征值和特征向量。
在 FA via PCA 中,我们选取前 $r$ 个最大的特征值及其对应的特征向量来构造 $L$。具体的构造方式是:
$$ \ell_j = \sqrt{\lambda_j} v_j $$这是这道题最核心的“桥梁”。
2. 讲解答案 (Answer Analysis)
现在我们来看手写笔记中的证明过程,它非常简练。我把中间省略的矩阵运算细节补全。
第一步:定义 PVE (Proportion of Variance Explained)
笔记开头写道:
$$ PVE_j = \frac{\|\ell_j\|^2}{\text{tr}(\Sigma)} $$- 分母: $\text{tr}(\Sigma)$ 是总方差。
- 分子: $\|\ell_j\|^2$ 是第 $j$ 个因子解释的方差。
- 为什么是 $\|\ell_j\|^2$? 如果我们只看第 $j$ 个因子 $z_j$ 对协方差矩阵的贡献,它是 $\ell_j \ell_j^T$(假设其他因子和误差项为0)。 这个贡献矩阵的迹(即解释的总方差)为: $$ \text{tr}(\ell_j \ell_j^T) = \text{tr}(\ell_j^T \ell_j) = \ell_j^T \ell_j = \|\ell_j\|^2 $$
第二步:代入 FA via PCA 的构造条件
笔记中提到:
$$ L = (\sqrt{\lambda_1}v_1, \dots, \sqrt{\lambda_r}v_r) $$这意味着对于第 $j$ 个因子,其载荷向量 $\ell_j$ 定义为:
$$ \ell_j = \sqrt{\lambda_j} v_j $$这里 $\lambda_j$ 是第 $j$ 大的特征值,$v_j$ 是对应的单位特征向量 (Normalized Eigenvector)。
第三步:计算分子 $\|\ell_j\|^2$
这是最后推导的关键:
$$ \begin{aligned} \|\ell_j\|^2 &= \ell_j^T \ell_j \\ &= (\sqrt{\lambda_j} v_j)^T (\sqrt{\lambda_j} v_j) \\ &= \sqrt{\lambda_j} v_j^T \sqrt{\lambda_j} v_j \\ &= (\sqrt{\lambda_j})^2 (v_j^T v_j) \\ &= \lambda_j \cdot 1 \quad (\text{因为特征向量是单位向量,即 } \|v_j\|=1) \\ &= \lambda_j \end{aligned} $$结论
将第三步的结果代回第一步的公式:
$$ PVE_j = \frac{\lambda_j}{\text{tr}(\Sigma)} $$得证。
总结
这道题其实揭示了为什么在实际应用中(比如你在做 STA437 项目时),大家喜欢用 Scree Plot(碎石图)看特征值 $\lambda_j$ 来决定保留几个因子。
因为在 FA via PCA 的框架下,特征值 $\lambda_j$ 直接等于第 $j$ 个因子解释的方差量。特征值越大,该因子解释的数据波动就越多。
这部分清楚了吗?如果没问题,我们可以继续下一题,或者你想在这个“特征值等于方差”的点上再深入讨论一下?
E9 - Q3
第三题非常关键,它讨论的是因子分析(Factor Analysis)中的旋转不变性(Rotation Invariance)。这是一个经常容易混淆的概念,因为它涉及到一个“整体不变”但“局部改变”的细微差别。
我们来看这道题:“Is $PVE$ rotation invariant?”
1. 涉及到的知识点 (Key Concepts)
在讲解答案之前,我们需要明确以下几个核心概念及其性质:
PVE (Proportion of Variance Explained, 解释方差比例): 衡量因子模型解释了多少原始数据的变异。题目中区分了两种 PVE:
- 整体 PVE (Total PVE): 所有 $r$ 个因子共同解释的方差比例。
- 单个 PVE (Individual PVE, $PVE_j$): 第 $j$ 个因子单独解释的方差比例。
因子旋转 (Factor Rotation): 这是因子分析中用于增强结果可解释性的关键步骤(比如 Varimax 旋转)。 在数学上,如果 $L$ 是因子载荷矩阵(Factor Loading Matrix),我们可以引入一个正交矩阵(Orthogonal Matrix)$Q$(即 $QQ^T = Q^TQ = I$),构造一个新的载荷矩阵 $\tilde{L}$:
$$ \tilde{L} = LQ $$这种变换不会改变模型的协方差结构,因为:
$$ \tilde{L}\tilde{L}^T + \Psi = (LQ)(LQ)^T + \Psi = LQQ^TL^T + \Psi = LL^T + \Psi $$也就是说,旋转后的模型在数学拟合程度上与原模型是等价的。
Frobenius 范数 (Frobenius Norm): 题目中 $PVE$ 的分子写为 $\|L\|_F^2$。对于矩阵 $L$,其 Frobenius 范数的平方等于所有元素平方和,也等于 $\text{tr}(LL^T)$。
$$ \|L\|_F^2 = \sum_{i,j} L_{ij}^2 = \text{tr}(LL^T) $$
2. 讲解答案 (Answer Explanation)
题目问了两件事:
- 整体 PVE ($PVE = \frac{\|L\|_F^2}{\text{tr}(\Sigma)}$) 是否是旋转不变的?
- 单个因子的 PVE ($PVE_j = \frac{\sum_{i=1}^p \ell_{ij}^2}{\text{tr}(\Sigma)}$) 是否是旋转不变的?
第一部分:整体 PVE 是旋转不变的 (Yes, Total PVE is invariant)
笔记中的证明非常直接:
$$ \text{Is } \|\tilde{L}\|_F^2 = \|L\|_F^2 ? $$推导过程:
- 根据定义,$\|\tilde{L}\|_F^2 = \text{tr}(\tilde{L}\tilde{L}^T)$。
- 代入旋转公式 $\tilde{L} = LQ$: $$ \text{tr}(\tilde{L}\tilde{L}^T) = \text{tr}((LQ)(LQ)^T) $$
- 展开转置: $$ = \text{tr}(LQ Q^T L^T) $$
- 利用正交矩阵性质 $Q Q^T = I$: $$ = \text{tr}(L I L^T) = \text{tr}(LL^T) $$
- 回到定义: $$ = \|L\|_F^2 $$
结论: 无论怎么旋转因子,所有因子共同解释的总方差是不变的。这很好理解,就像你把一块蛋糕切成不同形状(旋转),蛋糕的总量(解释的总方差)是不会变的。
第二部分:单个因子的 PVE 不是旋转不变的 (No, Individual PVE is NOT invariant)
题目接着问:$PVE_j$ 呢?
笔记中给出了新的载荷向量 $\tilde{\ell}_j$ 的定义:
$$ \tilde{L} = (\tilde{\ell}_1, \dots, \tilde{\ell}_r) = (Lq_1, \dots, Lq_r) $$其中 $q_j$ 是正交矩阵 $Q$ 的第 $j$ 列。
推导过程: 我们需要看旋转后第 $j$ 个因子的载荷向量模长平方 $\|\tilde{\ell}_j\|^2$ 是否等于原来的 $\|\ell_j\|^2$。
计算 $\|\tilde{\ell}_j\|^2$:
$$ \begin{aligned} \|\tilde{\ell}_j\|^2 &= \tilde{\ell}_j^T \tilde{\ell}_j \\ &= (Lq_j)^T (Lq_j) \\ &= q_j^T L^T L q_j \end{aligned} $$分析: 原来的 $\|\ell_j\|^2$ 是矩阵 $L^TL$ 的第 $j$ 个对角线元素。 现在的 $q_j^T (L^T L) q_j$ 是一个二次型(Quadratic Form)。 除非 $L^TL$ 是单位矩阵或者 $q_j$ 是 $L^TL$ 的特征向量等特殊情况,否则:
$$ q_j^T L^T L q_j \neq \ell_j^T \ell_j $$它显式地依赖于旋转向量 $q_j$。
结论: 单个因子解释的方差 会 随着旋转而改变。 笔记最后写道:“can take different values depending on $q_j$"(取决于 $q_j$,值会发生变化)。
直观理解: 这就是我们做因子旋转(Rotation)的目的! 我们做 Varimax 旋转,就是为了让某些因子的载荷极大化,而让另一些极小化(使 $PVE_j$ 分布得更“极端”),从而让因子更容易被解释(Interpretable)。如果旋转后单个 $PVE_j$ 都不变,那旋转就毫无意义了。
总结 (Summary)
- 整体不变 (Global Invariance): 你的模型整体解释数据的能力($R^2$)不会因为旋转而改变。
- 局部改变 (Local Change): 解释能力的分配(Allocation)发生了变化。旋转就是重新分配解释力,让每个因子的物理意义更清晰。
E9 - Q4
好的,Alex。这也是一道非常经典的题目,它展示了因子分析(Factor Analysis, FA)的一个核心局限性:并不是所有的协方差矩阵都可以用我们假设的因子模型完美拟合。
在统计学中,这种情况通常被称为 Heywood Case(即出现无效解,例如负的方差)。
我们来看一下这道题涉及的知识点和具体的解题步骤。
1. 涉及到的知识点 (Key Concepts)
模型识别与方程求解 (Model Identification): 在因子模型 $\Sigma = LL^T + \Psi$ 中,如果给定 $\Sigma$ 求解 $L$ 和 $\Psi$,本质上是在解一个方程组。
- 非对角线元素 (Off-diagonal elements): 仅由 $LL^T$ 决定(因为 $\Psi$ 是对角矩阵,非对角线为0)。这意味着变量间的协方差完全由公共因子解释。
- 对角线元素 (Diagonal elements): 由 $LL^T$ 和 $\Psi$ 共同决定。 $\text{Var}(X_i) = \sum \ell_{ik}^2 + \Psi_i$。
相关系数的界限 (Bounds of Correlation): 对于任何两个随机变量,其相关系数 $\rho$ 必须满足 $|\rho| \le 1$。 在本题中,由于 $\Sigma$ 的对角线都是 1(即 $\text{Var}(X_i)=1$)且假设因子方差 $\text{Var}(z)=1$,载荷 $\ell_{ij}$ 在数值上就等于观测变量 $X_i$ 和因子 $z_j$ 的相关系数。如果算出 $\ell_{ij} > 1$,则违背了统计学公理。
非负方差约束 (Non-negative Variance Constraint): 特殊方差 (Specific Variance) $\Psi_i$ 代表误差项 $\epsilon_i$ 的方差。根据定义,方差必须是非负的 ($\Psi_i \ge 0$)。如果计算出 $\Psi_i < 0$,则说明模型无解(即 Heywood Case)。
2. 讲解答案 (Answer Explanation)
这道题的目标是证明:对于给定的协方差矩阵 $\Sigma$,无法找到满足 $r=1$(单因子)的模型解。
第一步:建立方程组
我们要把矩阵等式 $\Sigma = LL^T + \Psi$ 展开。 由于 $r=1$, $L$ 是一个 $3 \times 1$ 的列向量 $(\ell_{11}, \ell_{21}, \ell_{31})^T$。
$$ \begin{pmatrix} 1 & 0.9 & 0.7 \\ 0.9 & 1 & 0.4 \\ 0.7 & 0.4 & 1 \end{pmatrix} = \begin{pmatrix} \ell_{11}^2 + \Psi_1 & \ell_{11}\ell_{21} & \ell_{11}\ell_{31} \\ \ell_{21}\ell_{11} & \ell_{21}^2 + \Psi_2 & \ell_{21}\ell_{31} \\ \ell_{31}\ell_{11} & \ell_{31}\ell_{21} & \ell_{31}^2 + \Psi_3 \end{pmatrix} $$我们先关注非对角线 (Off-diagonal) 元素,因为它们不包含未知的 $\Psi$,可以直接求解 $L$。 笔记中列出了方程:
- $\ell_{11}\ell_{21} = 0.9$
- $\ell_{21}\ell_{31} = 0.4$
- $\ell_{11}\ell_{31} = 0.7$
第二步:求解 $\ell_{11}$
这里用了一个很巧妙的代数技巧来解这个方程组。我们想求 $\ell_{11}$,可以构造 $\ell_{11}^2$:
$$ \ell_{11}^2 = \frac{(\ell_{11}\ell_{21}) \cdot (\ell_{11}\ell_{31})}{\ell_{21}\ell_{31}} $$(因为分子有两个 $\ell_{11}$,分子分母消掉 $\ell_{21}$ 和 $\ell_{31}$)
代入数值:
$$ \ell_{11}^2 = \frac{0.9 \times 0.7}{0.4} = \frac{0.63}{0.4} = 1.575 $$所以,$\ell_{11} = \sqrt{1.575} \approx 1.255$。
第三步:证明无解的理由一 (Correlation Contradiction)
题目要求展示 $\ell_{11} = \text{Cor}(X_1, z_1)$ 并解释矛盾。
推导:
$$ \text{Cov}(X_1, z_1) = E[X_1 z_1] = E[(Lz + \epsilon)_1 z_1] = \ell_{11} E[z_1^2] = \ell_{11} $$因为 $\Sigma$ 对角线为 1,说明 $X_1$ 已经是标准化的(方差为1)。且假设 $z_1$ 也是标准正态(方差为1)。 所以:
$$ \text{Cor}(X_1, z_1) = \frac{\text{Cov}(X_1, z_1)}{\sqrt{\text{Var}(X_1)}\sqrt{\text{Var}(z_1)}} = \frac{\ell_{11}}{1 \cdot 1} = \ell_{11} $$矛盾: 我们要 $\ell_{11} \approx 1.255$。 但是相关系数不可能大于 1。 结论: $\ell_{11} > 1$ 是不可能的。
第四步:证明无解的理由二 (Negative Variance / Heywood Case)
题目要求计算 $\Psi_1$ 并展示不可能。
回到第一步矩阵的对角线方程:
$$ \Sigma_{11} = \ell_{11}^2 + \Psi_1 $$代入已知数值:
$$ 1 = 1.575 + \Psi_1 $$解得:
$$ \Psi_1 = 1 - 1.575 = -0.575 $$- 矛盾: $\Psi_1$ 代表特殊因子 $\epsilon_1$ 的方差 $\text{Var}(\epsilon_1)$。 方差永远是非负的 ($\ge 0$)。 结论: 出现了负方差,模型不成立。
总结
这道题通过一个具体的数字例子告诉你: Factor Analysis 并不总是能成功的。 当变量之间的相关性结构(非对角线)与变量自身的方差(对角线)发生冲突时(比如变量间相关性太强,强到超过了变量自身的总方差),简单的单因子模型就会失效。这就是著名的 Heywood Case。
E9 - Q5
没问题,Alex。我们来看最后这第五张图。
这一题其实是整个因子分析逻辑的“闭环”。之前我们讨论的是“如果有因子 $z$,怎么生成数据 $x$”;现在这道题问的是“既然我看到了数据 $x$,我怎么反推那个隐藏的因子 $z$ 是多少?”
这个过程叫做 Factor Scoring (因子得分计算)。
1. 涉及到的知识点 (Key Concepts)
因子得分 (Factor Scores): 对于每一个观测数据点 $x_i$(比如某个具体的学生),我们需要估计他的潜在因子 $z_i$(比如他的智力水平)。因为 $z$ 是不可观测的,所以这本质上是一个估计 (Estimation) 问题。
逆向推断 (Inverse Inference): 在第一题中,我们是从 $z$ 推导 $x$($x|z$)。 在这里,我们利用贝叶斯推断的逻辑,从 $x$ 反推 $z$($z|x$)。
均方误差最小化 (Minimizing Mean Squared Error, MSE): 为什么我们要用 $E[z|x]$(条件期望)来作为 $z$ 的估计值? 在统计学中,条件期望 (Conditional Expectation) 是在该条件下,均方误差最小的最佳预测值。即 $\hat{z} = E[z|x]$ 使得 $E[\|z - \hat{z}\|^2]$ 最小。这被称为 Regression Method (回归法)。
2. 讲解答案 (Answer Analysis)
笔记的逻辑流非常清晰,再次使用了 Joint $\to$ Conditional 的套路,但这次方向反了(从求 $x|z$ 变成了求 $z|x$)。
第一步 & 第二步:构建联合分布 (Joint Distribution)
笔记中写道:Consider $y = \binom{x}{z}$。 这和我们在第一题中做的事情一模一样。我们需要先知道它们“合体”后长什么样。
根据之前的推导,联合分布为:
$$ \begin{pmatrix} x \\ z \end{pmatrix} \sim \mathcal{N}_{p+r} \left( \begin{pmatrix} 0 \\ 0 \end{pmatrix}, \begin{pmatrix} LL^T+\Psi & L \\ L^T & I \end{pmatrix} \right) $$这里最关键的对应关系是:
- $\Sigma_{xx} = LL^T + \Psi$ (观测数据的协方差)
- $\Sigma_{xz} = L$ (观测数据与因子的协方差)
- $\Sigma_{zx} = L^T$ (因子与观测数据的协方差,注意这里转置了)
- $\Sigma_{zz} = I$ (因子的协方差)
第三步:推导条件分布 $z|x$ (Find Conditional Distribution)
现在我们要计算:已知观测值 $x$,因子 $z$ 服从什么分布?
我们再次使用多元正态分布的条件公式:
$$ \mu_{z|x} = \mu_z + \Sigma_{zx}\Sigma_{xx}^{-1}(x - \mu_x) $$$$ \Sigma_{z|x} = \Sigma_{zz} - \Sigma_{zx}\Sigma_{xx}^{-1}\Sigma_{xz} $$代入矩阵计算:
条件均值 (The Score):
$$ \begin{aligned} E[z|x] &= 0 + L^T \cdot (LL^T + \Psi)^{-1} \cdot (x - 0) \\ &= L^T (LL^T + \Psi)^{-1} x \end{aligned} $$这就是笔记最后那个公式的来源。
- 物理意义:
- $x$: 你的原始分数(比如 数学90,物理85)。
- $(LL^T+\Psi)^{-1}$: 对原始分数之间的相关性进行“去相关”和加权。
- $L^T$: 将加权后的观测数据投影回因子空间。
- 物理意义:
条件方差 (Estimation Error): 笔记中也给出了方差公式:
$$ \text{Var}(z|x) = I - L^T (LL^T + \Psi)^{-1} L $$这个方差告诉我们,用 $E[z|x]$ 来估计 $z$ 时,我们的不确定性 (Uncertainty) 有多大。如果这个值很小,说明我们的估计很准。
第四步:为什么这是一个好估计? (Why good estimate?)
笔记提问:Why $E(z|x)$ is a good estimate?
答案就是我们刚才提到的 MSE (Mean Squared Error) 最小化性质。 如果我们想找一个函数 $f(x)$ 来猜测 $z$,使得猜测的平均误差平方最小,数学上可以证明这个最佳函数就是条件期望 $f(x) = E[z|x]$。
总结与直观理解
Alex,为了把这一整套 Factor Analysis 的流程串起来,我们回到那个“学生成绩”的例子:
- 模型建立 ($X=Lz+\epsilon$): 我们假设有一个隐藏的“智力因子” $z$。
- 参数估计: 我们拿到全班的卷子,算出协方差矩阵 $\Sigma$,然后算出 $L$(载荷)。
- 因子得分 (本题内容): 现在校长拿来了小明的卷子 $x_{\text{小明}} = [90, 85, 70]^T$。 校长问:“小明的智力 $z$ 到底是多少?” 你就套用这个公式: $$ z_{\text{小明}} = \underbrace{L^T (LL^T + \Psi)^{-1}}_{\text{评分权重矩阵}} \cdot \underbrace{x_{\text{小明}}}_{\text{卷面分}} $$ 算出来可能 $z_{\text{小明}} = 1.2$(说明小明智力比平均水平高 1.2 个标准差)。
E10 - Q1
Relevant Definitions & Theorems
- Permutation Matrix ($P$): A square binary matrix that has exactly one entry of 1 in each row and each column and 0s elsewhere.
- Inverse of Permutation Matrix: For any permutation matrix $P$, $P^T = P^{-1}$. For a simple transposition (swapping two elements), $P^T = P$, thus $P^2 = I$ and $P = P^{-1}$.
- Linear Transformation:
- Pre-multiplication ($PA$): Permutes the rows of $A$.
- Post-multiplication ($AP$): Permutes the columns of $A$.
- ICA Model: $X = Lz$, where $L$ is the mixing matrix and $z$ are the source signals.
Detailed Solution
1. Explicit Form of $P$ Let $P \in \mathbb{R}^{p \times p}$ be a permutation matrix that swaps the $i$-th and $j$-th elements. Explicitly, this matrix is the Identity matrix $I_p$ with the $i$-th and $j$-th rows swapped:
$$ P = \begin{pmatrix} 1 & \cdots & 0 & \cdots & 0 & \cdots & 0 \\ \vdots & \ddots & \vdots & & \vdots & & \vdots \\ 0 & \cdots & 0 & \cdots & 1 & \cdots & 0 \\ \vdots & & \vdots & \ddots & \vdots & & \vdots \\ 0 & \cdots & 1 & \cdots & 0 & \cdots & 0 \\ \vdots & & \vdots & & \vdots & \ddots & \vdots \\ 0 & \cdots & 0 & \cdots & 0 & \cdots & 1 \end{pmatrix} \begin{matrix} \\ \\ \leftarrow \text{row } i \\ \\ \leftarrow \text{row } j \\ \\ \\ \end{matrix} $$2. Explicit Form of $P^{-1}$ Since $P$ represents a swap of $i$ and $j$, applying $P$ twice restores the original order.
$$ P(Px) = x \implies P^2 = I $$Therefore:
$$ P^{-1} = P $$3. Invariance of the Product $Lz$ Let the original model be $X = Lz$, where $z = (z_1, \dots, z_p)^T$ and $L = (\ell_1, \dots, \ell_p)$. We define transformed variables:
$$ \tilde{z} = Pz \quad \text{and} \quad \tilde{L} = LP^{-1} $$Step 3.1: Analyze $\tilde{z}$ Since $P$ swaps the $i$-th and $j$-th rows:
$$ \tilde{z} = P \begin{pmatrix} z_1 \\ \vdots \\ z_i \\ \vdots \\ z_j \\ \vdots \end{pmatrix} = \begin{pmatrix} z_1 \\ \vdots \\ z_j \\ \vdots \\ z_i \\ \vdots \end{pmatrix} \leftarrow \text{positions } i, j \text{ swapped} $$Step 3.2: Analyze $\tilde{L}$ Since $P^{-1} = P$, we have $\tilde{L} = LP$. Post-multiplying a matrix by a permutation matrix permutes its columns.
$$ \tilde{L} = (\ell_1, \dots, \ell_i, \dots, \ell_j, \dots, \ell_p) P = (\ell_1, \dots, \ell_j, \dots, \ell_i, \dots, \ell_p) $$(The $i$-th column is now $\ell_j$ and the $j$-th column is now $\ell_i$).
Step 3.3: Verification We calculate the product $\tilde{L}\tilde{z}$ using linear combination expansion:
$$ \begin{aligned} \tilde{L}\tilde{z} &= \sum_{k=1}^p \tilde{\ell}_k \tilde{z}_k \\ &= \sum_{k \neq i,j} \ell_k z_k + (\tilde{\ell}_i \tilde{z}_i) + (\tilde{\ell}_j \tilde{z}_j) \\ &= \sum_{k \neq i,j} \ell_k z_k + (\ell_j z_j) + (\ell_i z_i) \\ &= \sum_{k=1}^p \ell_k z_k \\ &= Lz \end{aligned} $$Conclusion: The ICA model $X = Lz$ holds even if we permute the order of the sources $z$ and the corresponding columns of $L$. This proves the permutation ambiguity in ICA.
E10 - Q2
Relevant Definitions & Theorems
- Covariance: $\text{Cov}(X, Y) = E[XY] - E[X]E[Y]$.
- Uncorrelated: Variables $X, Y$ are uncorrelated if $\text{Cov}(X, Y) = 0$.
- Independence: Variables $X, Y$ are independent if and only if their joint probability mass function (PMF) factorizes: $f_{X,Y}(x, y) = f_X(x)f_Y(y)$ for all $x, y$.
- Implication: Independence $\implies$ Uncorrelatedness, but Uncorrelatedness $\nRightarrow$ Independence.
Detailed Solution
1. Problem Setup Consider a random vector $X = (x_1, x_2)^T$ with the following discrete joint distribution:
$$ X = \begin{cases} (0, 1) & \text{with probability } 1/4 \\ (0, -1) & \text{with probability } 1/4 \\ (1, 0) & \text{with probability } 1/4 \\ (-1, 0) & \text{with probability } 1/4 \end{cases} $$2. Calculating Covariance First, we compute the marginal expectations:
$$ E[x_1] = 0 \cdot \frac{1}{4} + 0 \cdot \frac{1}{4} + 1 \cdot \frac{1}{4} + (-1) \cdot \frac{1}{4} = 0 $$$$ E[x_2] = 1 \cdot \frac{1}{4} + (-1) \cdot \frac{1}{4} + 0 \cdot \frac{1}{4} + 0 \cdot \frac{1}{4} = 0 $$Next, we compute $E[x_1 x_2]$. Notice that for every data point, at least one coordinate is 0.
$$ x_1 x_2 \in \{ 0\cdot1, 0\cdot(-1), 1\cdot0, (-1)\cdot0 \} = \{0, 0, 0, 0\} $$Thus, $E[x_1 x_2] = 0$.
Finally, the covariance:
$$ \text{Cov}(x_1, x_2) = E[x_1 x_2] - E[x_1]E[x_2] = 0 - 0 = 0 $$Result: $x_1$ and $x_2$ are uncorrelated.
3. Marginal Distributions We determine the PMF for $x_1$ (summing over $x_2$):
- $P(x_1 = 0) = P(0, 1) + P(0, -1) = 1/4 + 1/4 = 1/2$
- $P(x_1 = 1) = P(1, 0) = 1/4$
- $P(x_1 = -1) = P(-1, 0) = 1/4$
Similarly for $x_2$:
- $P(x_2 = 0) = 1/2$
- $P(x_2 = 1) = 1/4$
- $P(x_2 = -1) = 1/4$
4. Check for Independence We test the condition $f_{X}(x_1, x_2) = f_{x_1}(x_1) f_{x_2}(x_2)$ at the point $(0, 1)$.
- LHS (Joint): From the definition, $P(X=(0,1)) = 1/4$.
- RHS (Product of Marginals): $$ f_{x_1}(0) \cdot f_{x_2}(1) = \frac{1}{2} \cdot \frac{1}{4} = \frac{1}{8} $$
Conclusion:
$$ \frac{1}{4} \neq \frac{1}{8} \implies f_{X}(0, 1) \neq f_{x_1}(0)f_{x_2}(1) $$Therefore, $x_1$ and $x_2$ are not independent, despite being uncorrelated. This justifies why PCA (based on correlation) is insufficient for signal separation, necessitating ICA.
E10 - Q3
Relevant Definitions & Theorems
- Kurtosis ($\kappa$): A measure of the “tailedness” of the probability distribution. For a variable $y$, $\kappa(y) = E\left[\left(\frac{y-\mu}{\sigma}\right)^4\right] - 3$.
- Excess Kurtosis (Alternative Definition): Often denoted simply as the fourth standardized moment minus 3. For a zero-mean variable $\tilde{y}$: $\kappa(\tilde{y}) = \frac{E[\tilde{y}^4]}{(E[\tilde{y}^2])^2} - 3$.
- Properties of Moments: For independent zero-mean variables $y_1, y_2$:
- $E[y_1 y_2] = E[y_1]E[y_2] = 0$
- $E[y_1^3 y_2] = E[y_1^3]E[y_2] = 0$
- $E[y_1^2 y_2^2] = E[y_1^2]E[y_2^2] = \sigma_1^2 \sigma_2^2$
Detailed Solution
1. Assumptions and Centering Let $y_1 \sim (\mu_1, \sigma_1^2)$ and $y_2 \sim (\mu_2, \sigma_2^2)$. Since Kurtosis is translation invariant, i.e., $\kappa(y) = \kappa(y - \mu)$, we assume Without Loss of Generality (WLOG) that:
$$ \mu_1 = 0, \quad \mu_2 = 0 $$Let $\tilde{y}_i = y_i - \mu_i$. Thus $\tilde{y}_i$ has mean 0. The variance of the sum is $\sigma_{sum}^2 = \sigma_1^2 + \sigma_2^2$ due to independence.
2. Expansion of the Fourth Moment We need to compute $E[(\tilde{y}_1 + \tilde{y}_2)^4]$. Using the Binomial expansion $(a+b)^4 = a^4 + 4a^3b + 6a^2b^2 + 4ab^3 + b^4$:
$$ E[(\tilde{y}_1 + \tilde{y}_2)^4] = E[\tilde{y}_1^4] + 4E[\tilde{y}_1^3 \tilde{y}_2] + 6E[\tilde{y}_1^2 \tilde{y}_2^2] + 4E[\tilde{y}_1 \tilde{y}_2^3] + E[\tilde{y}_2^4] $$By independence and the zero-mean assumption ($E[\tilde{y}_i]=0$):
- $E[\tilde{y}_1^3 \tilde{y}_2] = E[\tilde{y}_1^3]E[\tilde{y}_2] = 0$
- $E[\tilde{y}_1 \tilde{y}_2^3] = E[\tilde{y}_1]E[\tilde{y}_2^3] = 0$
- $E[\tilde{y}_1^2 \tilde{y}_2^2] = E[\tilde{y}_1^2]E[\tilde{y}_2^2] = \sigma_1^2 \sigma_2^2$
So the expansion simplifies to:
$$ E[(\tilde{y}_1 + \tilde{y}_2)^4] = E[\tilde{y}_1^4] + 6\sigma_1^2 \sigma_2^2 + E[\tilde{y}_2^4] $$3. Expressing Moments via Kurtosis From the definition $\kappa(y) = \frac{E[\tilde{y}^4]}{\sigma^4} - 3$, we have:
$$ E[\tilde{y}^4] = (\kappa(y) + 3)\sigma^4 = \kappa(y)\sigma^4 + 3\sigma^4 $$Substituting this into our expansion:
$$ \begin{aligned} E[(\tilde{y}_1 + \tilde{y}_2)^4] &= (\kappa(y_1)\sigma_1^4 + 3\sigma_1^4) + 6\sigma_1^2 \sigma_2^2 + (\kappa(y_2)\sigma_2^4 + 3\sigma_2^4) \\ &= \sigma_1^4 \kappa(y_1) + \sigma_2^4 \kappa(y_2) + 3(\sigma_1^4 + 2\sigma_1^2 \sigma_2^2 + \sigma_2^4) \\ &= \sigma_1^4 \kappa(y_1) + \sigma_2^4 \kappa(y_2) + 3(\sigma_1^2 + \sigma_2^2)^2 \end{aligned} $$4. Calculating Kurtosis of the Sum Now we apply the definition of kurtosis to the sum $Y = y_1 + y_2$:
$$ \kappa(y_1 + y_2) = \frac{E[(Y - E[Y])^4]}{(\text{Var}(Y))^2} - 3 $$Substitute the numerator derived in Step 3 and the denominator $(\sigma_1^2 + \sigma_2^2)^2$:
$$ \begin{aligned} \kappa(y_1 + y_2) &= \frac{\sigma_1^4 \kappa(y_1) + \sigma_2^4 \kappa(y_2) + 3(\sigma_1^2 + \sigma_2^2)^2}{(\sigma_1^2 + \sigma_2^2)^2} - 3 \\ &= \frac{\sigma_1^4 \kappa(y_1) + \sigma_2^4 \kappa(y_2)}{(\sigma_1^2 + \sigma_2^2)^2} + \frac{3(\sigma_1^2 + \sigma_2^2)^2}{(\sigma_1^2 + \sigma_2^2)^2} - 3 \\ &= \frac{\sigma_1^4 \kappa(y_1) + \sigma_2^4 \kappa(y_2)}{(\sigma_1^2 + \sigma_2^2)^2} + 3 - 3 \end{aligned} $$Final Result:
$$ \kappa(y_1 + y_2) = \frac{\sigma_1^4 \kappa(y_1) + \sigma_2^4 \kappa(y_2)}{(\sigma_1^2 + \sigma_2^2)^2} $$