概统基础
随机向量运算
- 约定
- 随机向量:\boldsymbol x,\boldsymbol y,\boldsymbol z,\cdots
- 随机矩阵:\boldsymbol X,\boldsymbol Y,\boldsymbol Z,\cdots
- 常数向量:\boldsymbol a,\boldsymbol b,\boldsymbol c,\cdots
- 常数矩阵:\boldsymbol A,\boldsymbol B,\boldsymbol C,\cdots
- 随机向量
- 设随机向量\boldsymbol x=(x_1,\cdots,x_p)^\top,其元素x_i都是随机变量
- 期望向量
\mathrm{E}(\boldsymbol{x})=\left(\begin{array}{c}\mathrm{E}\left(x_1\right) \\ \mathrm{E}\left(x_2\right) \\ \vdots \\ \mathrm{E}\left(x_p\right)\end{array}\right)
记\boldsymbol{\mu}=\mathrm{E}(\boldsymbol{x}),\boldsymbol{\mu}为常数向量
- 协方差矩阵
\begin{align}
&\mathrm{Cov}(\boldsymbol x)=\mathrm{E}[(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^\top]=\mathrm{E}(\boldsymbol{x}\boldsymbol{x}^\top)-\boldsymbol{\mu}\boldsymbol{\mu}^\top
\\
&\mathrm{Cov}(\boldsymbol x,\boldsymbol y)=\mathrm{E}[(\boldsymbol{x}-\boldsymbol{\mu_x})(\boldsymbol{y}-\boldsymbol{\mu_y})^\top]=\mathrm{E}(\boldsymbol{x}\boldsymbol{y}^\top)-\boldsymbol{\mu_x}\boldsymbol{\mu_y}^\top
\end{align}
记\boldsymbol{\Sigma}=\mathrm{Cov}(\boldsymbol x),\boldsymbol{\Sigma}为常数矩阵
\boldsymbol{\Sigma}为实对称矩阵,可以使用谱分解定理、特征向量间正交
- 随机矩阵
- 设随机矩阵\boldsymbol X=(X_{ij})_{n\times p},其元素X_{ij}都是随机变量
- 期望矩阵
\mathrm {E}(\boldsymbol X)=(\mathrm E(X_{i,j}))_{n\times p}
结果为常数矩阵
- 由于随机向量可以视为一维的随机矩阵,因此接下来的性质如果对随机矩阵成立,则对随机向量也成立
- 线性变换
- 期望
\begin{align}
& \mathrm{E}(\boldsymbol{A X}+\boldsymbol{B})=\boldsymbol{A} \mathrm{E}(\boldsymbol{X})+\boldsymbol{B}
\\
& \mathrm{E}(\boldsymbol{A X B})=\boldsymbol{A} \mathrm{E}(\boldsymbol{X}) \boldsymbol{B}
\\
& \mathrm{E}(\boldsymbol{X}+\boldsymbol{Y})=\mathrm{E}(\boldsymbol{X})+\mathrm{E}(\boldsymbol{Y})
\end{align}
- 协方差矩阵
\begin{align}
&\mathrm{Cov}(\boldsymbol{A x}+\boldsymbol{b})=\boldsymbol{A}\mathrm{Cov}(\boldsymbol{x})\boldsymbol{A}^\top
\\
&\mathrm{Cov}(\boldsymbol{A x},\boldsymbol{Bx})=\boldsymbol{A}\mathrm{Cov}(\boldsymbol{x},\boldsymbol{y})\boldsymbol{B}^\top
\end{align}
- 二次型
- 期望
\mathrm{E}\left(\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}\right)=\mathrm{tr}(\boldsymbol{A} \boldsymbol{\Sigma})+\boldsymbol{\mu}^{\top} \boldsymbol{A} \boldsymbol{\mu}
- 特例
若\boldsymbol{A}=\boldsymbol{I},则\mathrm{E}\left(\boldsymbol{x}^{\top} \boldsymbol{x}\right)=\mathrm{tr}( \boldsymbol{\Sigma})+\boldsymbol{\mu}^{\top} \boldsymbol{\mu}
若\boldsymbol{\mu}=\boldsymbol0,则\mathrm{E}\left(\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}\right)=\mathrm{tr}(\boldsymbol{A} \boldsymbol{\Sigma})
特别提醒:\mathrm{E}\left(\boldsymbol{x} \boldsymbol{x}^{\top}\right)=\boldsymbol{\Sigma}+\boldsymbol{\mu}\boldsymbol{\mu}^\top
- 样本估计
- 设\boldsymbol{x}_1,\cdots,\boldsymbol{x}_n是来源于随机向量\boldsymbol{x}的独立样本
- 样本均值估计
\begin{align}
&\hat{\boldsymbol{\mu}}:\quad \bar{\boldsymbol{x}}=\frac{1}{n}\sum_{i=1}^{n} \boldsymbol{x}_i
\\
&\mathrm{E}(\bar{\boldsymbol{x}})=\boldsymbol{\mu},\quad \mathrm{Cov}(\bar{\boldsymbol{x}})=\frac{1}{n}\boldsymbol{\Sigma}
\end{align}
- 样本协方差的估计
\begin{align}
&\hat{\boldsymbol{\Sigma}}:\quad {\boldsymbol{S}}=\frac{1}{n-1}\sum_{i=1}^n(\boldsymbol x_i-\bar{\boldsymbol x})(\boldsymbol x_i-\bar{\boldsymbol x})^\top=\frac{1}{n-1}\left(\sum_{i=1}^n \boldsymbol x_i\boldsymbol x_i^\top -n \bar{\boldsymbol x}\bar{\boldsymbol x}^\top\right)
\\
&\mathrm{E}({\boldsymbol{S}})=\boldsymbol{\Sigma}
\end{align}
- 迹的公式
- 循环置换:\mathrm{tr}(\boldsymbol{AB})=\mathrm{tr}(\boldsymbol{BA})
- 线性性:\mathrm{E}[\mathrm{tr}(\boldsymbol{AX})]=\mathrm{tr}[\boldsymbol A\mathrm{E}(\boldsymbol{X})],\mathrm{E}[\mathrm{tr}(\boldsymbol{XA})]=\mathrm{tr}[\mathrm{E}(\boldsymbol{X})\boldsymbol A]
回归分析
方差分析
- 总偏差平方和: SST=\sum(y_i-\bar y)^2
- 回归平方和: SSR=\sum(\hat y_i-\bar y)^2
- 残差平方和: SSE=\sum(y_i-\hat y_i)^2
- 平方和分解式: SST=SSR+SSE
一元线性回归
- 定义
y_i=\beta_0+\beta_1x_i+\varepsilon_i\quad\quad \varepsilon_i\sim \mathrm N(0,\sigma^2)\ \mathrm{i.i.d.}
- 关键参数
- 参数的点估计
\begin{align}
&\beta_1:\quad\hat\beta_1=\frac{\sigma_{xy}}{\sigma_x^2}=\frac{\overline{xy}-\bar x\bar y}{\overline{x^2}-{\bar x}^2}
\\
&\beta_0:\quad\hat\beta_0=\bar{y}-\hat\beta_1\bar x
\\
&\sigma^2:\quad s^2=\frac{SSE}{n-2}
\end{align}
- 参数点估计的抽样分布
\begin{align}
&\hat{\beta}_1\sim N\left(\beta_1, \frac{1}{\sigma_x^2}\frac{\sigma^2}{n}\right)
\\
&\hat{\beta}_0\sim N\left(\beta_0,\left[1+\frac{{\bar x}^2}{\sigma_x^2}\right]\frac{\sigma^2}{n} \right)
\\
& s^2\sim\frac{\sigma^2}{n-2}\chi^2(n-2)
\end{align}
- 参数的区间估计
\begin{align}
&\beta_1:\quad \hat{\beta}_1\pm t_{\alpha /2}(n-2) \sqrt{ \frac{1}{\sigma_x^2}\frac{s^2}{n}}
\\
&\beta_0:\quad \hat{\beta}_0\pm t_{\alpha /2}(n-2) \sqrt{\left[1+\frac{{\bar x}^2}{\sigma_x^2}\right]\frac{s^2}{n}}
\\
&\sigma^2:\quad\left(\frac{(n-2) s^2}{\chi_{\alpha /2}^2(n-2)}, \frac{(n-2) s^2}{\chi_{1-\alpha /2}^2( n-2)}\right)
\end{align}
- 估计: 给定x_i时,寻求\mathrm E(y_i)=\beta_0+\beta_1x_i
- 点估计
\mathrm E(y_i):\quad\widehat{\mathrm E(y_i)}=\hat\beta_0+\hat\beta_1 x_i
- 区间估计
\mathrm E(y_i):\quad\widehat{\mathrm E(y_i)}\pm t_{\alpha/2}(n-2)\sqrt{\left[1+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{s^2}{n}}
- 估计误差的抽样分布
\delta_i=\widehat{\mathrm E(y_i)}-\mathrm E(y_i)\sim\mathrm N\left(0,\left[1+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{\sigma^2}{n}\right)
- 预测: 给定x_i时,寻求y_i=\beta_0+\beta_1x_i+\varepsilon_i
- 点估计
y_i:\quad\hat y_i=\hat\beta_0+\hat\beta_1 x_i
- 区间估计
y_i:\quad\hat y_i\pm t_{\alpha/2}(n-2)\sqrt{\left[1+n+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{s^2}{n}}
- 预测误差的抽样分布
e_i=\hat y_i-y_i\sim\mathrm N\left(0,\left[1+n+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{\sigma^2}{n}\right)
- 显著性检验
- F检验: H_0:\beta_1=0,单侧检验,过大拒绝
F=\frac{SSR}{SSE/(n-2)}\sim F(1,n-2)
- t检验: H_0:\beta_1=0,双侧检验
t=\frac{\hat\beta_1\sqrt{n\sigma_x^2}}{s}=\frac{\hat\beta_1\sqrt{n\sigma_x^2}}{\sqrt{SSE/(n-2)}}\sim t(n-2)
- 相关系数检验: H_0:\rho=0,单侧检验,过小拒绝
r=\left|\frac{\sigma_{xy}}{\sigma_x\sigma_y}\right|\sim \sqrt\frac{F(1,n-2)}{F(1,n-2)+(n-2)}
或者t=r\sqrt\frac{n-2}{1-r^2}\sim t(n-2),此时为双侧检验
多元线性回归
- 定义
y_i=\beta_0+\beta_1 x_{i1}+\cdots+\beta_p x_{ip}+\varepsilon_i\quad\quad \varepsilon_i\sim\mathrm N(0,\sigma^2)\ \mathrm{i.i.d.}
- 矩阵形式
\begin{align}
&\boldsymbol{y}=\left(\begin{array}{c}y_1\\ \vdots \\ y_n\end{array}\right), \quad \boldsymbol{X}=\left(\begin{array}{cccc}1& x_{11} & \cdots & x_{1p} \\ \vdots & \vdots & \ddots & \vdots \\1& x_{n1} & \cdots & x_{n p}\end{array}\right), \quad \boldsymbol{\beta}=\left(\begin{array}{c}\beta_0\\ \beta_1\\ \vdots \\ \beta_p\end{array}\right), \quad \boldsymbol{\varepsilon}=\left(\begin{array}{c}\varepsilon_1\\ \vdots \\ \varepsilon_n\end{array}\right)
\\
&\boldsymbol{y}=\boldsymbol{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon}, \quad \boldsymbol{\varepsilon} \sim \mathrm{N}_n\left(\boldsymbol{0}, \sigma^2\boldsymbol{I}_n\right)
\end{align}
- 帽子矩阵
\boldsymbol{H}=\boldsymbol{X}\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top}
- \boldsymbol{y}的拟合值
\hat{\boldsymbol{y}}=\boldsymbol{X} \hat{\boldsymbol{\beta}}=\boldsymbol{H} \boldsymbol{y}=\boldsymbol{X}\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y}
- 残差向量
\boldsymbol{e}=\boldsymbol{y}-\hat{\boldsymbol{y}}=\left(\boldsymbol{I}_n-\boldsymbol{H}\right) \boldsymbol{y}
此时有SSE=\boldsymbol{e}^\top\boldsymbol{e}
- 关键参数
- 参数的点估计
\begin{align}
&\boldsymbol{\beta}:\quad \hat{\boldsymbol{\beta}}=\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y}
\\
&\sigma^2:\quad s^2=\frac{SSE}{n-p-1}
\end{align}
- 参数点估计的抽样分布
\begin{align}
&\hat{\boldsymbol{\beta}}\sim\mathrm N_{p+1}\left(\boldsymbol{\beta},\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1}\sigma^2\right)
\\
&s^2\sim\frac{\sigma^2}{n-p-1}\chi^2(n-p-1)
\end{align}
- 回归模型的评估
- 判定系数
R^2=\frac{\mathrm{SSR}}{\mathrm{SST}}, \quad R_{\mathrm{adj}}^2=1-\frac{(n-1)\left(1-R^2\right)}{n-p-1}=1-\frac{(n-1) \mathrm{SSE}}{(n-p-1) \mathrm{SST}}
- F检验: H_0:\beta_1=\cdots=\beta_p=0,单侧检验,过大拒绝
F=\frac{{SSR} / p}{{SSE} /(n-p-1)}\sim F(p,n-p-1)
- t检验: H_0:\beta_i=0,双侧检验
t=\frac{\hat\beta_1}{s\sqrt{b_{ii}}}=\frac{\hat\beta_1}{\sqrt{b_{ii}SSE/(n-p-1)}}\sim t(n-p-1)
其中b_{ii}为矩阵\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1}的第i个主对角元
- 回归方法
- 最小二乘法
\hat{\boldsymbol{\beta}}=\argmin\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2=\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y}
无偏估计,易受多重共线性、过拟合、异常值的影响,无法用于高维数据(p\gt n)
- 岭回归
\hat{\boldsymbol{\beta}}(\lambda)=\argmin\left\{\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2^2+\lambda\|\boldsymbol{\beta}\|_2^2\right\}=\left(\boldsymbol{X}^{\top} \boldsymbol{X}+\lambda\boldsymbol{I}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y}
有偏估计,能够应对最小二乘法面临的问题
- LASSO回归
\hat{\boldsymbol{\beta}}(\lambda)=\argmin\left\{\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2^2+\lambda\|\boldsymbol{\beta}\|_1\right\}
有偏估计,没有解析解,特别适合高维数据,能够将不重要自变量的系数变为0,实现压缩维度
- Elastic Net回归
\hat{\boldsymbol{\beta}}(\lambda,\alpha)=\argmin\left\{\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2^2+\lambda\left[\alpha\|\boldsymbol{\beta}\|_1+(1-\alpha)\|\boldsymbol{\beta}\|_2^2\right]\right\}
- 注意1范数都没有平方,PPT有误
Logistic回归
- 定义
\ln\frac{p_i}{1-p_i}=\beta_0+\beta_1x_{1i}+\cdots+\beta_kx_{ki}
- 拟合值
\hat{p}_i=\frac{1}{1+e^{-(\hat\beta_0+\hat\beta_1x_{1i}+\cdots+\hat\beta_kx_{ki})}}
- 分类: 从\hat{p}_i确定\hat{y}_i
- 阈值d
\begin{cases}
\hat{y}_i=1&\hat{p}_i\ge d
\\
\hat{y}_i=0&\hat{p}_i\lt d
\end{cases}
- 阈值的选择
朴素选择: d等于0.5
先验选择: d等于样本中y_i=1的比例
最优阈值: d的值使得犯第一类错误最小
- 参数的估计
- 使用极大似然估计,记
\begin{align}
&\boldsymbol{\beta}=(\beta_0,\beta_1,\cdots,\beta_k)^\top
\\
&\boldsymbol{x}_i=(x_{1i},\cdots,x_{ki})^\top
\\
&\pi(\boldsymbol{x}_{i})=\frac{1}{1+e^{-\boldsymbol{\beta}^\top\boldsymbol{x_i}}}
\end{align}
- 似然函数
L(\boldsymbol{\beta})=\prod_{i=1}^n\left[\pi\left(\boldsymbol{x}_i\right)\right]^{y_i}\left[1-\pi\left(\boldsymbol{x}_i\right)\right]^{1-y_i}
- 对数似然函数
\begin{align}
\ln L(\boldsymbol{\beta}) &=\sum_{i=1}^n\left[y_i \ln \pi\left(\boldsymbol{x}_i\right)+\left(1-y_i\right) \ln \left(1-\pi\left(\boldsymbol{x}_i\right)\right)\right]
\\
&=\sum_{i=1}^n \ln \left(1-\pi\left(\boldsymbol{x}_i\right)\right)+\sum_{i=1}^n y_i \ln \frac{\pi\left(\boldsymbol{x}_i\right)}{1-\pi\left(\boldsymbol{x}_i\right)}
\end{align}
- 根据对数似然函数求出\hat{\boldsymbol{\beta}},通常无解析解
主成分和因子分析
主成分分析
- 定义
- 对于p元随机向量,其均值和协方差阵分别为\boldsymbol\mu, \boldsymbol\Sigma
\boldsymbol X=(X_1,\cdots,X_p)^\top
- 考虑关于\boldsymbol X的p个线性组合
\begin{aligned}
{Y}_1= & \boldsymbol{a}_1^{\top} \boldsymbol{X}=a_{11} X_1+a_{12} X_2+\cdots+a_{1p} X_p,
\\
{Y}_2= & \boldsymbol{a}_2^{\top} \boldsymbol{X}=a_{21} X_1+a_{22} X_2+\cdots+a_{2p} X_p,
\\
& \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots
\\
{Y}_p= & \boldsymbol{a}_p^{\top} \boldsymbol{X}=a_{p1} X_1+a_{p2} X_2+\cdots+a_{p p} X_p .\end{aligned}
- 要求\boldsymbol{a}_i满足
\begin{align}
&\boldsymbol{a}_i^{\top}\boldsymbol{a}_i=1\quad\quad\mathrm{Cov}({Y}_i,{Y}_j)=\boldsymbol{a}_i^{\top}\boldsymbol{\Sigma}\boldsymbol{a}_j=0
\\
&\mathrm{Var}({Y}_i)=\boldsymbol{a}_i^{\top}\boldsymbol{\Sigma}\boldsymbol{a}_i\lt\mathrm{Var}({Y}_j)=\boldsymbol{a}_j^{\top}\boldsymbol{\Sigma}\boldsymbol{a}_j\quad(1\le i\lt j\le p)
\end{align}
- 则称{Y}_i为第i主成分
- 主成分的求法
- 定义\boldsymbol A=(\boldsymbol{a}_1,\cdots,\boldsymbol{a}_p),\boldsymbol Y=(Y_1,\cdots,Y_p)^\top,则
\boldsymbol{Y}=\left(\begin{array}{c}Y_1\\ Y_2\\ \vdots \\ Y_p\end{array}\right)=\left(\begin{array}{c}\boldsymbol{a}_1^{\top} \boldsymbol{X} \\ \boldsymbol{a}_2^{\top} \boldsymbol{X} \\ \vdots \\ \boldsymbol{a}_p^{\top} \boldsymbol{X}\end{array}\right)=\boldsymbol{A}^{\top} \boldsymbol{X}
由于\boldsymbol A^\top\boldsymbol A=\boldsymbol I,因此有\boldsymbol{X}=\boldsymbol{A}\boldsymbol{Y}
- 从协方差阵\boldsymbol{\Sigma}求主成分
协方差矩阵\boldsymbol{\Sigma}一定是实对称矩阵,特征向量间正交。因此选择\boldsymbol{\Sigma}的归一化后特征向量作为\boldsymbol{\alpha}_i,有
\begin{align}
&\mathrm{Var}({Y}_i)=\boldsymbol{\alpha}_i^\top\boldsymbol{\Sigma}\boldsymbol{\alpha}_i=\boldsymbol{\alpha}_i^\top\lambda_i\boldsymbol{\alpha}_i=\lambda_i
\\
&\mathrm{Cov}({Y}_i,{Y}_j)=\boldsymbol{\alpha}_i^\top\boldsymbol{\Sigma}\boldsymbol{\alpha}_j=\boldsymbol{\alpha}_i^\top\lambda_j\boldsymbol{\alpha}_j=0
\\
&\mathrm{Cov}(\boldsymbol Y)=\mathrm{diag}(\lambda_1,\cdots,\lambda_p)
\\
&\sum_{i=1}^p\mathrm{Var}(X_i)=\mathrm{tr}(\boldsymbol{\Sigma})=\sum_{i=1}^p\lambda_i=\sum_{i=1}^p\mathrm{Var}(Y_i)
\end{align}
根据\mathrm{Var}(\boldsymbol{Y}_i)=\lambda_i计算第i主成分的贡献率
\frac{\lambda_i}{\lambda_1+\cdots+\lambda_p}
- 从相关阵\boldsymbol{R}求主成分
协方差大小受变量的量纲大小影响,改为使用相关系数矩阵可以解决这个问题。对所有X_i归一化
X_i^\ast=\frac{X_i-\mu_i}{\sqrt{\mathrm{Var}(X_i)}}
对于\boldsymbol X^\ast,其相关阵\boldsymbol{R}与协方差阵\boldsymbol{\Sigma}相同。也可以从协方差阵\boldsymbol{\Sigma}直接计算相关阵\boldsymbol{R}
\boldsymbol R=\boldsymbol D\boldsymbol \Sigma\boldsymbol D\quad\quad \boldsymbol D=\mathrm{diag}\left(\frac{1}{\sqrt{\mathrm{Var}(X_1)}},\cdots,\frac{1}{\sqrt{\mathrm{Var}(X_p)}}\right)
相关阵\boldsymbol{R}的主对角线都为1,因此第i主成分的贡献率为
\frac{\lambda_i^\ast}{\lambda_1^\ast+\cdots+\lambda_p^\ast}=\frac{{\lambda_i^\ast}}{p}
最后需要将主成分中的X_i^\ast还原为X_i
Y_i^\ast=a_{i1}^\ast X_1^\ast+\cdots+a_{ip}^\ast X_p^\ast=a_{i1}^\ast \frac{X_1-\mu_1}{\sqrt{\mathrm{Var}(X_1)}}+\cdots+a_{ip}^\ast \frac{X_p-\mu_p}{\sqrt{\mathrm{Var}(X_p)}}
- 因子载荷
- 每个主成分Y_i和变量X_j的相关系数
\mathrm{Corr}(Y_i,X_j)=\frac{\alpha_{ij}\sqrt{\lambda_i}}{\sqrt{\mathrm{Var}(X_j)}}
- 为了和前文一致,系数向量\boldsymbol{\alpha}_i=(\alpha_{i1},\cdots,\alpha_{ip})^\top,与PPT不同
- \boldsymbol\mu, \boldsymbol\Sigma的估计
\begin{align}
&\mu_i:\quad \bar{x}_i=\frac{1}{n}\sum_{\alpha=1}^n x_{i\alpha}
\\
&\mathrm{Var}(X_i):\quad s_{ii}=\frac{1}{n-1}\sum_{\alpha=1}^n\left( x_{i\alpha}-\bar{x}_i\right)^2
\\
&\mathrm{Cov}(X_i,X_j):\quad s_{ij}=\frac{1}{n-1}\sum_{\alpha=1}^n\left( x_{i\alpha}-\bar{x}_i\right)\left( x_{j\alpha}-\bar{x}_j\right)
\end{align}
- 相关性判定
- KMO检验: 检验统计量小于0.5不适合做主成分分析,大于0.7主成分分析效果比较好
- Bartlett球形检验: p值接近0适合做主成分分析
因子分析
- 定义
- 对于p元随机向量,其均值和协方差阵分别为\boldsymbol\mu, \boldsymbol\Sigma
\boldsymbol X=(X_1,\cdots,X_p)^\top
- 考虑m维向量(m\lt p)
\boldsymbol F=(F_1,\cdots,F_m)^\top
要求\mathrm{E}(\boldsymbol F)=\boldsymbol 0,\mathrm{Cov}(\boldsymbol F)=\boldsymbol{I}_m
- 和p维残差向量
\boldsymbol \varepsilon=(\varepsilon_1,\cdots,\varepsilon_p)^\top
要求\mathrm{E}(\boldsymbol\varepsilon)=\boldsymbol 0,\mathrm{Cov}(\boldsymbol\varepsilon)=\mathrm{diag}(\sigma_1^2,\cdots,\sigma_p^2),\mathrm{Cov}(\boldsymbol F,\boldsymbol \varepsilon)=\boldsymbol 0
将\mathrm{Cov}(\boldsymbol\varepsilon)记为\boldsymbol D
- 满足正交因子模型
\begin{align}
\boldsymbol X=&\boldsymbol\mu+\boldsymbol A\boldsymbol F+\boldsymbol\varepsilon
\\\\
X_1= & \mu_1+a_{11} F_1+a_{12} F_2+\cdots+a_{1m} F_m+\varepsilon_1, \\ X_2= & \mu_2+a_{21} F_1+a_{22} F_2+\cdots+a_{2m} F_m+\varepsilon_2, \\ & \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \\ X_p= & \mu_p+a_{p1} F_1+a_{p2} F_2+\cdots+a_{p m} F_m+\varepsilon_p
\end{align}
- \boldsymbol F称为公共因子,\boldsymbol\varepsilon称为特殊因子,\boldsymbol A称为因子载荷矩阵
- 与主成分分析相比,因子分析减少了变量维度,将损失的精度用残差解释
- 性质
- \boldsymbol\Sigma=\boldsymbol A\boldsymbol{A}^\top+\boldsymbol D,即
\begin{align}
&\mathrm{Var}\left(X_i\right) =a_{i1}^2+a_{i2}^2+\cdots+a_{i m}^2+\sigma_i^2,
\\
&\mathrm{Cov}\left(X_i, X_j\right) =a_{i1} a_{j1}+a_{i2} a_{j2}+\cdots+a_{i m} a_{j m}
\end{align}
- \mathrm{Cov}(\boldsymbol X,\boldsymbol F)=\boldsymbol A,即
\mathrm{Cov}\left(X_i, F_j\right) =a_{ij}
矩阵\boldsymbol A的元素刻画了X_i,F_j的相关性,将a_{ij}称为X_i在F_j的因子载荷
- 将这两条性质合称为正交因子模型的协方差结构
- 共性方差
- 对于变量X_i,将变量方差\mathrm{Var}\left(X_i\right)分解为共性方差h_i^2和剩余方差\sigma_i^2
\mathrm{Var}\left(X_i\right) =a_{i1}^2+a_{i2}^2+\cdots+a_{i m}^2+\sigma_i^2=h_{i}^2+\sigma_i^2
- 共性方差反应了X_i对\boldsymbol F的总依赖程度
- 因子贡献
- 对于因子F_i,其贡献为
g_i^2=a_{1i}^2+\cdots+a_{pi}^2
- 因子贡献衡量了因子F_i对\boldsymbol X的总影响力
- 因子的不唯一性
- 若(\boldsymbol A,\boldsymbol F,\boldsymbol \varepsilon)是符合条件的因子模型,则对于任意正交矩阵\boldsymbol \Lambda,(\boldsymbol A\boldsymbol \Lambda,\boldsymbol {\Lambda}^\top\boldsymbol F,\boldsymbol \varepsilon)也是符合条件的因子模型
\begin{align}
&\mathrm{E}(\boldsymbol {\Lambda}^\top\boldsymbol F)=\boldsymbol {\Lambda}^\top\mathrm{E}(\boldsymbol F)=\boldsymbol 0
\\
&\mathrm{Cov}(\boldsymbol {\Lambda}^\top\boldsymbol F)=\boldsymbol {\Lambda}^\top\mathrm{Cov}(\boldsymbol F)\boldsymbol {\Lambda}=\boldsymbol I_m
\\
&\boldsymbol A\boldsymbol\Lambda(\boldsymbol A\boldsymbol\Lambda)^\top+\boldsymbol \varepsilon=\boldsymbol A\boldsymbol A^\top+\boldsymbol \varepsilon=\boldsymbol \Sigma
\end{align}
将从\boldsymbol A得到新的因子载荷矩阵\boldsymbol A\boldsymbol\Lambda称为因子旋转
- 因子分析时,首先计算出一个符合条件的因子载荷矩阵,在对其旋转,得到满足要求的最终因子载荷矩阵
- 因子载荷矩阵的估计
- 主成分法
选择相关阵\boldsymbol R的前m大的特征值\lambda_i以及对应的特征向量\boldsymbol v_i,根据谱分解定理有
\boldsymbol R\approx\left(\sqrt{\lambda_1} \boldsymbol v_1, \cdots, \sqrt{\lambda_m} \boldsymbol v_m\right)\left(\begin{array}{c}\sqrt{\lambda_1} \boldsymbol v_1^{\top} \\ \vdots \\ \sqrt{\lambda_m} \boldsymbol v_m^{\top}\end{array}\right)+\boldsymbol D=\boldsymbol A\boldsymbol A^\top+\boldsymbol D
由于舍弃了部分特征值特征向量,因此\boldsymbol A\boldsymbol A^\top与\boldsymbol R不相同
估计\boldsymbol D时,由于\boldsymbol D为对角阵,选择\boldsymbol D使得\boldsymbol A\boldsymbol A^\top+\boldsymbol D与\boldsymbol R主对角线元素相同
最终\boldsymbol A\boldsymbol A^\top+\boldsymbol D与\boldsymbol R主对角线元素相同,其他元素略有差异
- 此外还有主因子法、极大似然估计法
- 因子旋转矩阵的估计
- 最大方差法:使得总相对方差最大
- 此外还有最大四次方值法、最大平衡值法、直接Oblimin法、Promax法
分析方式对比
- 主成分分析
- 先分解为p个主成分
- 根据贡献率筛选出最重要的m个主成分
- 对这m个主成分的意义进行解释
- 因子分析
- 先确定要压缩为m个因子
- 估计出这m个因子的表达式
- 对因子进行旋转,直到满足要求
- 对这m个旋转后因子的意义进行解释
时间序列
时间序列分析简介
- 特征
- 长期趋势(trend): 长期内呈现出递增或递减的趋势
- 季节变动(season): 稳定周期内的重复波动
- 循环波动(circle): 非固定周期的反复循环波动
- 随机波动(immediate): 噪音,平稳序列
- 序列不止包含随机波动,那么它就是非平稳时间序列。 对这种时间序列的分析方法可以分为随机性分析和确定性分析
- 确定性分析
- 典型分解式: 将时间序列分解成趋势项、季节项、平稳随机噪声项
X_t=m_t+s_t+Y_t
- 差分法: 对数据反复差分,直到接近平稳过程
- 平滑法: 包括滑动平均法和指数平滑法,消除季节效应
- 随机性分析
- 使用过去值和随机扰动项预测未来值
- ARIMA、GARCH等模型
- 时间序列的描述
- 均值函数
\mu_t=\mathrm{E}(X_t)
- 方差函数
\sigma_t^2=\mathrm{Var}(X_t)
- 自协方差函数
\gamma(t,s)=\mathrm{E}[(X_t-\mu_t)(X_s-\mu_s)]
- 自相关函数ACF
\rho(t,s)=\frac{\gamma(t,s)}{\sigma_t\sigma_s}
- 平稳时间序列
- 严平稳: 随机向量和时间无关,仅和时间差有关
- 宽平稳: 期望值、方差有限且不随时间变化,自协方差只和时间差关
\begin{align}
&\mu_t=\mathrm{E}(X_t)\equiv\mu,\quad\sigma_t^2=\mathrm{Var}(X_t)\equiv\sigma^2=\gamma_0
\\
&\gamma(t,t+k)=\mathrm{E}[(X_t-\mu_t)(X_{t+k}-\mu_{t+k})]\equiv \gamma_k
\\
&\rho(t,t+k)=\frac{\gamma(t,t+k)}{\sigma_t\sigma_{t+k}}=\frac{\gamma_k}{\gamma_0}\equiv \rho_k
\end{align}
- 性质
\begin{align}
&\rho_0=1,\quad|\rho_k|\le1
\\
&\rho_{k}=\rho_{-k},\quad \gamma_k=\gamma_{-k}
\end{align}
- 白噪声、滑动平均、随机余弦波宽平稳;随机游走不平稳(方差时变)
\mathrm{Var}(X_t)=\mathrm{Var}(X_{t-1}+\varepsilon_t)=\cdots=\mathrm{Var}(X_{0}+\sum_{i=1}^t\varepsilon_i)=t\sigma^2
- 平稳时间序列的参数估计
- 设一个平稳时间序列的观测值序列为x_1,\cdots,x_n
- 均值
\mu:\quad\bar x=\frac{1}{n} \sum_{t=1}^n x_t
- 方差
\sigma^2:\quad\widehat{\sigma^2}=\frac{1}{n-1}\sum_{t=1}^n\left(x_t-\bar x\right)^2
- 协方差函数
\gamma_k:\quad\hat\gamma_k=\frac{1}{n-k}\sum_{t=1}^{n-k}\left(x_t-\bar x\right)\left(x_{t+k}-\bar x\right)
- 自相关系数
\rho_k:\quad\hat\rho_k=\frac{\hat\gamma_k}{\hat\gamma_0}
- 平稳性检验
- 图检验方法
时序图检验: 看起来在一定范围内波动
自相关图检验: 各阶自相关系数始终比较小
- 单位根检验
ADF检验: 适用于方差齐性场合
PP检验: 适用于异方差场合
- 纯随机性检验
- 纯随机性的定义
\forall k\ne0,\gamma_k=0
检验统计量: Q统计量、LB统计量
- 游程检验: 检验单样本变量值是否随机
平稳时间序列分析
AR模型
- AR(p)模型的定义
x_t=\phi_0+\phi_1x_{t-1}+\phi_2x_{t-2}+\cdots+\phi_p x_{t-p}+\varepsilon_t
- 中心化: 做如下变换后的AR模型能够消除常数项\phi_0
\mu=\frac{\phi_0}{1-\phi_1-\cdots-\phi_p}, \quad y_t=x_t-\mu
故我们一般只讨论中心化后的模型
- 延迟算子
x_t=\phi_1x_{t-1}+\phi_2x_{t-2}+\cdots+\phi_p x_{t-p}+\varepsilon_t
\\
\Downarrow
\\
x_t-\phi_1x_{t-1}-\phi_2x_{t-2}-\cdots-\phi_p x_{t-p}=\varepsilon_t
\\
\Downarrow
\\
x_t-B\phi_1x_{t}-B^2\phi_2x_{t-2}-\cdots-B^p\phi_p x_{t-p}=\varepsilon_t
\\
\Downarrow
\\
(1-B\phi_1-B^2\phi_2-\cdots-B^p\phi_p)x_t=\varepsilon_t
\\
\Downarrow
\\
\Phi(B)x_t=\varepsilon_t
- 平稳性
- 特征根判别: 特征方程\Phi(\lambda^{-1})=0的所有解\lambda_i都落在单位圆内
- 平稳域判别: \phi_i落入平稳域中。AR(1)与AR(2)的平稳域如下
\begin{align}
&\text{AR(1)}:\quad -1\lt\phi_1\lt1
\\
&\text{AR(2)}:\quad -1\lt\phi_2\lt1,\phi_1\pm\phi_2\lt1
\end{align}
- 同时通过两种判别则为平稳MA模型
- Green函数
- 平稳AR(p)等效于MA(∞)
\begin{align}
x_t&=\frac{\varepsilon_t}{\Phi(B)}
\\
&=\frac{\varepsilon_t}{1-B\phi_1-B^2\phi_2-\cdots-B^p\phi_p}
\\
&=(1+\psi_1B+\psi_2B^2+\cdots)\varepsilon_t
\\
&=\varepsilon_t+\psi_1\varepsilon_{t-1}+\psi_2\varepsilon_{t-2}+\cdots
\end{align}
- \psi_i称为Green函数,可以通过泰勒展开\frac{1}{\Phi(B)}或根据公式递推
\psi_0=1, \quad \psi_j=\sum_{k=1}^j \phi_k^{\prime} \psi_{j-k}, \quad \phi_k^{\prime}=\begin{cases}\phi_k, & k \leq p \\0, & k>p \end{cases}
- 特别的,对于AR(1)模型,\psi_i=\phi_1^i
x_t=\frac{\varepsilon_t}{1-B\phi_1}=(1+B\phi_1+B^2\phi_1^2+\cdots)\varepsilon_t=\varepsilon_t+\phi_1\varepsilon_{t-1}+\phi_1^2\varepsilon_{t-2}+\cdots
- 统计性质
- 均值
\mu=\frac{\phi_0}{1-\phi_1-\cdots-\phi_p}=\frac{\phi_0}{\Phi(1)}
- 方差
\sigma^2=\mathrm{Var}(\varepsilon_t+\psi_1\varepsilon_{t-1}+\psi_2\varepsilon_{t-2}+\cdots)=\sigma_{\epsilon}^2\sum_{i=0}^{\infty}\psi_i^2
特别的,对于AR(1),\sigma^2=\frac{\sigma_{\epsilon}^2}{1-\phi_1^2}
- 自协方差,只考虑AR(1)
\gamma_k=\phi_1^k\sigma^2
- 自相关系数ACF,只考虑AR(1)
\rho_k=\frac{\gamma_k}{\gamma_0}=\phi_1^k
- 偏自相关系数PACF
ACF描述了不同滞后项之间的关系,但这种关系受其他滞后项影响,PACF则排除了其它项的影响
例如对于AR(1),x_t由x_{t-1}一阶递推得到,但二阶ACF却显著不为0,而二阶PACF接近0
\text{AR(p)}\quad\Rightarrow\quad \text{PACF}_k\approx\begin{cases}
\phi_k&k\le p
\\
0&k\gt p
\end{cases}
- 对于AR(p)模型,ACF随阶数逐渐递减(拖尾),PACF前p阶较大,之后为较小(p期后结尾)
MA模型
- MA(q)模型的定义
x_t=\mu+\varepsilon_t-\theta_1\varepsilon_{t-1}-\theta_2\varepsilon_{t-2}-\cdots-\theta_q \varepsilon_{t-q}
- 令y_t=x_t-\mu得到中心化MA(q)模型
- 延迟算子
x_t=(1-\theta_1B-\cdots-\theta_q B^q)\varepsilon_t=\Theta(B) \varepsilon_t
- 可逆性
- 特征根判别: 特征方程\Theta(\lambda^{-1})=0的所有解\lambda_i都落在单位圆内
- 平稳域判别: \phi_i落入平稳域中。MA(1)与MA(2)的平稳域如下
\begin{align}
&\text{MA(1)}:\quad -1\lt\theta_1\lt1
\\
&\text{MA(2)}:\quad -1\lt\theta_2\lt1,\theta_1\pm\theta_2\lt1
\end{align}
- 同时通过两种判别则为可逆MA模型
- 类似的,可逆MA(q)等效于AR(∞)
- 另外,MA(q)一定平稳
- 统计性质
- 均值为\mu
- 方差\sigma^2=\left(1+\theta_1^2+\cdots+\theta_q^2\right) \sigma_{\varepsilon}^2
- 自协方差、自相关函数ACF: 根据定义易推导,表现为q阶截尾
\begin{align}&\gamma_j= \begin{cases}\sigma^2,&j=0\\\frac{\theta_j+\theta_{j+1} \theta_1+\theta_{j+2} \theta_2+\cdots+\theta_q \theta_{q-j}}{1+\theta_1^2+\theta_2^2+\cdots+\theta_q^2} \sigma^2, & j=1,2, \cdots, q \\0, & j>q\end{cases} \\ &\rho_j= \begin{cases}1,&j=0\\\frac{\theta_j+\theta_{j+1} \theta_1+\theta_{j+2} \theta_2+\cdots+\theta_q \theta_{q-j}}{1+\theta_1^2+\theta_2^2+\cdots+\theta_q^2}, & j=1,2, \cdots, q \\0, & j>q\end{cases} \end{align}
- 偏自相关函数: 拖尾
ARMA
- ARMA(p,q)模型的定义
x_t=\phi_0+\phi_1x_{t-1}+\cdots+\phi_p x_{t-p}+\varepsilon_t-\theta_1\varepsilon_{t-1}-\cdots-\theta_q \varepsilon_{t-q}
- 中心化后
x_t=\phi_1x_{t-1}+\cdots+\phi_p x_{t-p}+\varepsilon_t-\theta_1\varepsilon_{t-1}-\cdots-\theta_q \varepsilon_{t-q}
- 延迟算子
\Phi(B) x_t=\Theta(B) \varepsilon_t
- 平稳性与可逆性
- 平稳性: 等价于判断AR(p)的平稳性
- 可逆性: 等价于判断MA(q)的可逆性
- 平稳ARMA(p,q)等效于MA(∞),可逆ARMA等效于AR(∞)
x_t=\frac{\Theta(B)}{\Phi(B)} \varepsilon_t\quad\quad\varepsilon_t=\frac{\Phi(B)}{\Theta(B)}x_t
- 统计性质
- 均值
\mu=\frac{\phi_0}{1-\phi_1-\cdots-\phi_p}=\frac{\phi_0}{\Phi(1)}
- 方差、自协方差、自相关系数ACF: 转换为MA(∞)后计算
- 自相关系数ACF与偏自相关系数PACF都是拖尾
- 确定阶数
- 样本自相关系数和样本偏自相关系数的渐近正态性,从而可以利用2倍标准差范围来辅助判断
- 若有超过5%的系数落入2倍标准差范围之外,则为拖尾。否则为d阶截尾,d为明显超过2倍标准差范围的系数
- 模型评判
非平稳时间序列分析