应用统计方法

realhuhu 54 0

概统基础

随机向量运算

  1. 约定
    • 随机向量:\boldsymbol x,\boldsymbol y,\boldsymbol z,\cdots
    • 随机矩阵:\boldsymbol X,\boldsymbol Y,\boldsymbol Z,\cdots
    • 常数向量:\boldsymbol a,\boldsymbol b,\boldsymbol c,\cdots
    • 常数矩阵:\boldsymbol A,\boldsymbol B,\boldsymbol C,\cdots
  2. 随机向量
    • 设随机向量\boldsymbol x=(x_1,\cdots,x_p)^\top,其元素x_i都是随机变量
    • 期望向量
      \mathrm{E}(\boldsymbol{x})=\left(\begin{array}{c}\mathrm{E}\left(x_1\right) \\ \mathrm{E}\left(x_2\right) \\ \vdots \\ \mathrm{E}\left(x_p\right)\end{array}\right)
      \boldsymbol{\mu}=\mathrm{E}(\boldsymbol{x})\boldsymbol{\mu}为常数向量
    • 协方差矩阵
      \begin{align} &\mathrm{Cov}(\boldsymbol x)=\mathrm{E}[(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^\top]=\mathrm{E}(\boldsymbol{x}\boldsymbol{x}^\top)-\boldsymbol{\mu}\boldsymbol{\mu}^\top \\ &\mathrm{Cov}(\boldsymbol x,\boldsymbol y)=\mathrm{E}[(\boldsymbol{x}-\boldsymbol{\mu_x})(\boldsymbol{y}-\boldsymbol{\mu_y})^\top]=\mathrm{E}(\boldsymbol{x}\boldsymbol{y}^\top)-\boldsymbol{\mu_x}\boldsymbol{\mu_y}^\top \end{align}
      \boldsymbol{\Sigma}=\mathrm{Cov}(\boldsymbol x)\boldsymbol{\Sigma}为常数矩阵
      \boldsymbol{\Sigma}为实对称矩阵,可以使用谱分解定理、特征向量间正交
  3. 随机矩阵
    • 设随机矩阵\boldsymbol X=(X_{ij})_{n\times p},其元素X_{ij}都是随机变量
    • 期望矩阵
      \mathrm {E}(\boldsymbol X)=(\mathrm E(X_{i,j}))_{n\times p}
      结果为常数矩阵
    • 由于随机向量可以视为一维的随机矩阵,因此接下来的性质如果对随机矩阵成立,则对随机向量也成立
  4. 线性变换
    • 期望
      \begin{align} & \mathrm{E}(\boldsymbol{A X}+\boldsymbol{B})=\boldsymbol{A} \mathrm{E}(\boldsymbol{X})+\boldsymbol{B} \\ & \mathrm{E}(\boldsymbol{A X B})=\boldsymbol{A} \mathrm{E}(\boldsymbol{X}) \boldsymbol{B} \\ & \mathrm{E}(\boldsymbol{X}+\boldsymbol{Y})=\mathrm{E}(\boldsymbol{X})+\mathrm{E}(\boldsymbol{Y}) \end{align}
    • 协方差矩阵
      \begin{align} &\mathrm{Cov}(\boldsymbol{A x}+\boldsymbol{b})=\boldsymbol{A}\mathrm{Cov}(\boldsymbol{x})\boldsymbol{A}^\top \\ &\mathrm{Cov}(\boldsymbol{A x},\boldsymbol{Bx})=\boldsymbol{A}\mathrm{Cov}(\boldsymbol{x},\boldsymbol{y})\boldsymbol{B}^\top \end{align}
  5. 二次型
    • 期望
      \mathrm{E}\left(\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}\right)=\mathrm{tr}(\boldsymbol{A} \boldsymbol{\Sigma})+\boldsymbol{\mu}^{\top} \boldsymbol{A} \boldsymbol{\mu}
    • 特例
      \boldsymbol{A}=\boldsymbol{I},则\mathrm{E}\left(\boldsymbol{x}^{\top} \boldsymbol{x}\right)=\mathrm{tr}( \boldsymbol{\Sigma})+\boldsymbol{\mu}^{\top} \boldsymbol{\mu}
      \boldsymbol{\mu}=\boldsymbol0,则\mathrm{E}\left(\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}\right)=\mathrm{tr}(\boldsymbol{A} \boldsymbol{\Sigma})
      特别提醒:\mathrm{E}\left(\boldsymbol{x} \boldsymbol{x}^{\top}\right)=\boldsymbol{\Sigma}+\boldsymbol{\mu}\boldsymbol{\mu}^\top
  6. 样本估计
    • \boldsymbol{x}_1,\cdots,\boldsymbol{x}_n是来源于随机向量\boldsymbol{x}的独立样本
    • 样本均值估计
      \begin{align} &\hat{\boldsymbol{\mu}}:\quad \bar{\boldsymbol{x}}=\frac{1}{n}\sum_{i=1}^{n} \boldsymbol{x}_i \\ &\mathrm{E}(\bar{\boldsymbol{x}})=\boldsymbol{\mu},\quad \mathrm{Cov}(\bar{\boldsymbol{x}})=\frac{1}{n}\boldsymbol{\Sigma} \end{align}
    • 样本协方差的估计
      \begin{align} &\hat{\boldsymbol{\Sigma}}:\quad {\boldsymbol{S}}=\frac{1}{n-1}\sum_{i=1}^n(\boldsymbol x_i-\bar{\boldsymbol x})(\boldsymbol x_i-\bar{\boldsymbol x})^\top=\frac{1}{n-1}\left(\sum_{i=1}^n \boldsymbol x_i\boldsymbol x_i^\top -n \bar{\boldsymbol x}\bar{\boldsymbol x}^\top\right) \\ &\mathrm{E}({\boldsymbol{S}})=\boldsymbol{\Sigma} \end{align}
  7. 迹的公式
    • 循环置换:\mathrm{tr}(\boldsymbol{AB})=\mathrm{tr}(\boldsymbol{BA})
    • 线性性:\mathrm{E}[\mathrm{tr}(\boldsymbol{AX})]=\mathrm{tr}[\boldsymbol A\mathrm{E}(\boldsymbol{X})],\mathrm{E}[\mathrm{tr}(\boldsymbol{XA})]=\mathrm{tr}[\mathrm{E}(\boldsymbol{X})\boldsymbol A]

回归分析

方差分析

  1. 总偏差平方和: SST=\sum(y_i-\bar y)^2
  2. 回归平方和: SSR=\sum(\hat y_i-\bar y)^2
  3. 残差平方和: SSE=\sum(y_i-\hat y_i)^2
  4. 平方和分解式: SST=SSR+SSE

一元线性回归

  1. 定义
    y_i=\beta_0+\beta_1x_i+\varepsilon_i\quad\quad \varepsilon_i\sim \mathrm N(0,\sigma^2)\ \mathrm{i.i.d.}
  2. 关键参数
    • 参数的点估计
      \begin{align} &\beta_1:\quad\hat\beta_1=\frac{\sigma_{xy}}{\sigma_x^2}=\frac{\overline{xy}-\bar x\bar y}{\overline{x^2}-{\bar x}^2} \\ &\beta_0:\quad\hat\beta_0=\bar{y}-\hat\beta_1\bar x \\ &\sigma^2:\quad s^2=\frac{SSE}{n-2} \end{align}
    • 参数点估计的抽样分布
      \begin{align} &\hat{\beta}_1\sim N\left(\beta_1, \frac{1}{\sigma_x^2}\frac{\sigma^2}{n}\right) \\ &\hat{\beta}_0\sim N\left(\beta_0,\left[1+\frac{{\bar x}^2}{\sigma_x^2}\right]\frac{\sigma^2}{n} \right) \\ & s^2\sim\frac{\sigma^2}{n-2}\chi^2(n-2) \end{align}
    • 参数的区间估计
      \begin{align} &\beta_1:\quad \hat{\beta}_1\pm t_{\alpha /2}(n-2) \sqrt{ \frac{1}{\sigma_x^2}\frac{s^2}{n}} \\ &\beta_0:\quad \hat{\beta}_0\pm t_{\alpha /2}(n-2) \sqrt{\left[1+\frac{{\bar x}^2}{\sigma_x^2}\right]\frac{s^2}{n}} \\ &\sigma^2:\quad\left(\frac{(n-2) s^2}{\chi_{\alpha /2}^2(n-2)}, \frac{(n-2) s^2}{\chi_{1-\alpha /2}^2( n-2)}\right) \end{align}
  3. 估计: 给定x_i时,寻求\mathrm E(y_i)=\beta_0+\beta_1x_i
    • 点估计
      \mathrm E(y_i):\quad\widehat{\mathrm E(y_i)}=\hat\beta_0+\hat\beta_1 x_i
    • 区间估计
      \mathrm E(y_i):\quad\widehat{\mathrm E(y_i)}\pm t_{\alpha/2}(n-2)\sqrt{\left[1+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{s^2}{n}}
    • 估计误差的抽样分布
      \delta_i=\widehat{\mathrm E(y_i)}-\mathrm E(y_i)\sim\mathrm N\left(0,\left[1+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{\sigma^2}{n}\right)
  4. 预测: 给定x_i时,寻求y_i=\beta_0+\beta_1x_i+\varepsilon_i
    • 点估计
      y_i:\quad\hat y_i=\hat\beta_0+\hat\beta_1 x_i
    • 区间估计
      y_i:\quad\hat y_i\pm t_{\alpha/2}(n-2)\sqrt{\left[1+n+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{s^2}{n}}
    • 预测误差的抽样分布
      e_i=\hat y_i-y_i\sim\mathrm N\left(0,\left[1+n+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{\sigma^2}{n}\right)
  5. 显著性检验
    • F检验: H_0:\beta_1=0,单侧检验,过大拒绝
      F=\frac{SSR}{SSE/(n-2)}\sim F(1,n-2)
    • t检验: H_0:\beta_1=0,双侧检验
      t=\frac{\hat\beta_1\sqrt{n\sigma_x^2}}{s}=\frac{\hat\beta_1\sqrt{n\sigma_x^2}}{\sqrt{SSE/(n-2)}}\sim t(n-2)
    • 相关系数检验: H_0:\rho=0,单侧检验,过小拒绝
      r=\left|\frac{\sigma_{xy}}{\sigma_x\sigma_y}\right|\sim \sqrt\frac{F(1,n-2)}{F(1,n-2)+(n-2)}
      或者t=r\sqrt\frac{n-2}{1-r^2}\sim t(n-2),此时为双侧检验

多元线性回归

  1. 定义
    y_i=\beta_0+\beta_1 x_{i1}+\cdots+\beta_p x_{ip}+\varepsilon_i\quad\quad \varepsilon_i\sim\mathrm N(0,\sigma^2)\ \mathrm{i.i.d.}

    • 矩阵形式
      \begin{align} &\boldsymbol{y}=\left(\begin{array}{c}y_1\\ \vdots \\ y_n\end{array}\right), \quad \boldsymbol{X}=\left(\begin{array}{cccc}1& x_{11} & \cdots & x_{1p} \\ \vdots & \vdots & \ddots & \vdots \\1& x_{n1} & \cdots & x_{n p}\end{array}\right), \quad \boldsymbol{\beta}=\left(\begin{array}{c}\beta_0\\ \beta_1\\ \vdots \\ \beta_p\end{array}\right), \quad \boldsymbol{\varepsilon}=\left(\begin{array}{c}\varepsilon_1\\ \vdots \\ \varepsilon_n\end{array}\right) \\ &\boldsymbol{y}=\boldsymbol{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon}, \quad \boldsymbol{\varepsilon} \sim \mathrm{N}_n\left(\boldsymbol{0}, \sigma^2\boldsymbol{I}_n\right) \end{align}
    • 帽子矩阵
      \boldsymbol{H}=\boldsymbol{X}\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top}
    • \boldsymbol{y}的拟合值
      \hat{\boldsymbol{y}}=\boldsymbol{X} \hat{\boldsymbol{\beta}}=\boldsymbol{H} \boldsymbol{y}=\boldsymbol{X}\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y}
    • 残差向量
      \boldsymbol{e}=\boldsymbol{y}-\hat{\boldsymbol{y}}=\left(\boldsymbol{I}_n-\boldsymbol{H}\right) \boldsymbol{y}
      此时有SSE=\boldsymbol{e}^\top\boldsymbol{e}
  2. 关键参数
    • 参数的点估计
      \begin{align} &\boldsymbol{\beta}:\quad \hat{\boldsymbol{\beta}}=\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y} \\ &\sigma^2:\quad s^2=\frac{SSE}{n-p-1} \end{align}
    • 参数点估计的抽样分布
      \begin{align} &\hat{\boldsymbol{\beta}}\sim\mathrm N_{p+1}\left(\boldsymbol{\beta},\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1}\sigma^2\right) \\ &s^2\sim\frac{\sigma^2}{n-p-1}\chi^2(n-p-1) \end{align}
  3. 回归模型的评估
    • 判定系数
      R^2=\frac{\mathrm{SSR}}{\mathrm{SST}}, \quad R_{\mathrm{adj}}^2=1-\frac{(n-1)\left(1-R^2\right)}{n-p-1}=1-\frac{(n-1) \mathrm{SSE}}{(n-p-1) \mathrm{SST}}
    • F检验: H_0:\beta_1=\cdots=\beta_p=0,单侧检验,过大拒绝
      F=\frac{{SSR} / p}{{SSE} /(n-p-1)}\sim F(p,n-p-1)
    • t检验: H_0:\beta_i=0,双侧检验
      t=\frac{\hat\beta_1}{s\sqrt{b_{ii}}}=\frac{\hat\beta_1}{\sqrt{b_{ii}SSE/(n-p-1)}}\sim t(n-p-1)
      其中b_{ii}为矩阵\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1}的第i个主对角元
  4. 回归方法
    • 最小二乘法
      \hat{\boldsymbol{\beta}}=\argmin\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2=\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y}
      无偏估计,易受多重共线性、过拟合、异常值的影响,无法用于高维数据(p\gt n
    • 岭回归
      \hat{\boldsymbol{\beta}}(\lambda)=\argmin\left\{\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2^2+\lambda\|\boldsymbol{\beta}\|_2^2\right\}=\left(\boldsymbol{X}^{\top} \boldsymbol{X}+\lambda\boldsymbol{I}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y}
      有偏估计,能够应对最小二乘法面临的问题
    • LASSO回归
      \hat{\boldsymbol{\beta}}(\lambda)=\argmin\left\{\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2^2+\lambda\|\boldsymbol{\beta}\|_1\right\}
      有偏估计,没有解析解,特别适合高维数据,能够将不重要自变量的系数变为0,实现压缩维度
    • Elastic Net回归
      \hat{\boldsymbol{\beta}}(\lambda,\alpha)=\argmin\left\{\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2^2+\lambda\left[\alpha\|\boldsymbol{\beta}\|_1+(1-\alpha)\|\boldsymbol{\beta}\|_2^2\right]\right\}
    • 注意1范数都没有平方,PPT有误

Logistic回归

  1. 定义
    \ln\frac{p_i}{1-p_i}=\beta_0+\beta_1x_{1i}+\cdots+\beta_kx_{ki}

    • 拟合值
      \hat{p}_i=\frac{1}{1+e^{-(\hat\beta_0+\hat\beta_1x_{1i}+\cdots+\hat\beta_kx_{ki})}}
  2. 分类: 从\hat{p}_i确定\hat{y}_i
    • 阈值d
      \begin{cases} \hat{y}_i=1&\hat{p}_i\ge d \\ \hat{y}_i=0&\hat{p}_i\lt d \end{cases}
    • 阈值的选择
      朴素选择: d等于0.5
      先验选择: d等于样本中y_i=1的比例
      最优阈值: d的值使得犯第一类错误最小
  3. 参数的估计
    • 使用极大似然估计,记
      \begin{align} &\boldsymbol{\beta}=(\beta_0,\beta_1,\cdots,\beta_k)^\top \\ &\boldsymbol{x}_i=(x_{1i},\cdots,x_{ki})^\top \\ &\pi(\boldsymbol{x}_{i})=\frac{1}{1+e^{-\boldsymbol{\beta}^\top\boldsymbol{x_i}}} \end{align}
    • 似然函数
      L(\boldsymbol{\beta})=\prod_{i=1}^n\left[\pi\left(\boldsymbol{x}_i\right)\right]^{y_i}\left[1-\pi\left(\boldsymbol{x}_i\right)\right]^{1-y_i}
    • 对数似然函数
      \begin{align} \ln L(\boldsymbol{\beta}) &=\sum_{i=1}^n\left[y_i \ln \pi\left(\boldsymbol{x}_i\right)+\left(1-y_i\right) \ln \left(1-\pi\left(\boldsymbol{x}_i\right)\right)\right] \\ &=\sum_{i=1}^n \ln \left(1-\pi\left(\boldsymbol{x}_i\right)\right)+\sum_{i=1}^n y_i \ln \frac{\pi\left(\boldsymbol{x}_i\right)}{1-\pi\left(\boldsymbol{x}_i\right)} \end{align}
    • 根据对数似然函数求出\hat{\boldsymbol{\beta}},通常无解析解

主成分和因子分析

主成分分析

  1. 定义
    • 对于p元随机向量,其均值和协方差阵分别为\boldsymbol\mu, \boldsymbol\Sigma
      \boldsymbol X=(X_1,\cdots,X_p)^\top
    • 考虑关于\boldsymbol Xp个线性组合
      \begin{aligned} {Y}_1= & \boldsymbol{a}_1^{\top} \boldsymbol{X}=a_{11} X_1+a_{12} X_2+\cdots+a_{1p} X_p, \\ {Y}_2= & \boldsymbol{a}_2^{\top} \boldsymbol{X}=a_{21} X_1+a_{22} X_2+\cdots+a_{2p} X_p, \\ & \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \\ {Y}_p= & \boldsymbol{a}_p^{\top} \boldsymbol{X}=a_{p1} X_1+a_{p2} X_2+\cdots+a_{p p} X_p .\end{aligned}
    • 要求\boldsymbol{a}_i满足
      \begin{align} &\boldsymbol{a}_i^{\top}\boldsymbol{a}_i=1\quad\quad\mathrm{Cov}({Y}_i,{Y}_j)=\boldsymbol{a}_i^{\top}\boldsymbol{\Sigma}\boldsymbol{a}_j=0 \\ &\mathrm{Var}({Y}_i)=\boldsymbol{a}_i^{\top}\boldsymbol{\Sigma}\boldsymbol{a}_i\lt\mathrm{Var}({Y}_j)=\boldsymbol{a}_j^{\top}\boldsymbol{\Sigma}\boldsymbol{a}_j\quad(1\le i\lt j\le p) \end{align}
    • 则称{Y}_i为第i主成分
  2. 主成分的求法
    • 定义\boldsymbol A=(\boldsymbol{a}_1,\cdots,\boldsymbol{a}_p)\boldsymbol Y=(Y_1,\cdots,Y_p)^\top,则
      \boldsymbol{Y}=\left(\begin{array}{c}Y_1\\ Y_2\\ \vdots \\ Y_p\end{array}\right)=\left(\begin{array}{c}\boldsymbol{a}_1^{\top} \boldsymbol{X} \\ \boldsymbol{a}_2^{\top} \boldsymbol{X} \\ \vdots \\ \boldsymbol{a}_p^{\top} \boldsymbol{X}\end{array}\right)=\boldsymbol{A}^{\top} \boldsymbol{X}
      由于\boldsymbol A^\top\boldsymbol A=\boldsymbol I,因此有\boldsymbol{X}=\boldsymbol{A}\boldsymbol{Y}
    • 从协方差阵\boldsymbol{\Sigma}求主成分
      协方差矩阵\boldsymbol{\Sigma}一定是实对称矩阵,特征向量间正交。因此选择\boldsymbol{\Sigma}的归一化后特征向量作为\boldsymbol{\alpha}_i,有
      \begin{align} &\mathrm{Var}({Y}_i)=\boldsymbol{\alpha}_i^\top\boldsymbol{\Sigma}\boldsymbol{\alpha}_i=\boldsymbol{\alpha}_i^\top\lambda_i\boldsymbol{\alpha}_i=\lambda_i \\ &\mathrm{Cov}({Y}_i,{Y}_j)=\boldsymbol{\alpha}_i^\top\boldsymbol{\Sigma}\boldsymbol{\alpha}_j=\boldsymbol{\alpha}_i^\top\lambda_j\boldsymbol{\alpha}_j=0 \\ &\mathrm{Cov}(\boldsymbol Y)=\mathrm{diag}(\lambda_1,\cdots,\lambda_p) \\ &\sum_{i=1}^p\mathrm{Var}(X_i)=\mathrm{tr}(\boldsymbol{\Sigma})=\sum_{i=1}^p\lambda_i=\sum_{i=1}^p\mathrm{Var}(Y_i) \end{align}
      根据\mathrm{Var}(\boldsymbol{Y}_i)=\lambda_i计算第i主成分的贡献率
      \frac{\lambda_i}{\lambda_1+\cdots+\lambda_p}
    • 从相关阵\boldsymbol{R}求主成分
      协方差大小受变量的量纲大小影响,改为使用相关系数矩阵可以解决这个问题。对所有X_i归一化
      X_i^\ast=\frac{X_i-\mu_i}{\sqrt{\mathrm{Var}(X_i)}}
      对于\boldsymbol X^\ast,其相关阵\boldsymbol{R}与协方差阵\boldsymbol{\Sigma}相同。也可以从协方差阵\boldsymbol{\Sigma}直接计算相关阵\boldsymbol{R}
      \boldsymbol R=\boldsymbol D\boldsymbol \Sigma\boldsymbol D\quad\quad \boldsymbol D=\mathrm{diag}\left(\frac{1}{\sqrt{\mathrm{Var}(X_1)}},\cdots,\frac{1}{\sqrt{\mathrm{Var}(X_p)}}\right)
      相关阵\boldsymbol{R}的主对角线都为1,因此第i主成分的贡献率为
      \frac{\lambda_i^\ast}{\lambda_1^\ast+\cdots+\lambda_p^\ast}=\frac{{\lambda_i^\ast}}{p}
      最后需要将主成分中的X_i^\ast还原为X_i
      Y_i^\ast=a_{i1}^\ast X_1^\ast+\cdots+a_{ip}^\ast X_p^\ast=a_{i1}^\ast \frac{X_1-\mu_1}{\sqrt{\mathrm{Var}(X_1)}}+\cdots+a_{ip}^\ast \frac{X_p-\mu_p}{\sqrt{\mathrm{Var}(X_p)}}
  3. 因子载荷
    • 每个主成分Y_i和变量X_j的相关系数
      \mathrm{Corr}(Y_i,X_j)=\frac{\alpha_{ij}\sqrt{\lambda_i}}{\sqrt{\mathrm{Var}(X_j)}}
    • 为了和前文一致,系数向量\boldsymbol{\alpha}_i=(\alpha_{i1},\cdots,\alpha_{ip})^\top,与PPT不同
  4. \boldsymbol\mu, \boldsymbol\Sigma的估计
    \begin{align} &\mu_i:\quad \bar{x}_i=\frac{1}{n}\sum_{\alpha=1}^n x_{i\alpha} \\ &\mathrm{Var}(X_i):\quad s_{ii}=\frac{1}{n-1}\sum_{\alpha=1}^n\left( x_{i\alpha}-\bar{x}_i\right)^2 \\ &\mathrm{Cov}(X_i,X_j):\quad s_{ij}=\frac{1}{n-1}\sum_{\alpha=1}^n\left( x_{i\alpha}-\bar{x}_i\right)\left( x_{j\alpha}-\bar{x}_j\right) \end{align}
  5. 相关性判定
    • KMO检验: 检验统计量小于0.5不适合做主成分分析,大于0.7主成分分析效果比较好
    • Bartlett球形检验: p值接近0适合做主成分分析

因子分析

  1. 定义
    • 对于p元随机向量,其均值和协方差阵分别为\boldsymbol\mu, \boldsymbol\Sigma
      \boldsymbol X=(X_1,\cdots,X_p)^\top
    • 考虑m维向量(m\lt p
      \boldsymbol F=(F_1,\cdots,F_m)^\top
      要求\mathrm{E}(\boldsymbol F)=\boldsymbol 0,\mathrm{Cov}(\boldsymbol F)=\boldsymbol{I}_m
    • p维残差向量
      \boldsymbol \varepsilon=(\varepsilon_1,\cdots,\varepsilon_p)^\top
      要求\mathrm{E}(\boldsymbol\varepsilon)=\boldsymbol 0,\mathrm{Cov}(\boldsymbol\varepsilon)=\mathrm{diag}(\sigma_1^2,\cdots,\sigma_p^2),\mathrm{Cov}(\boldsymbol F,\boldsymbol \varepsilon)=\boldsymbol 0
      \mathrm{Cov}(\boldsymbol\varepsilon)记为\boldsymbol D
    • 满足正交因子模型
      \begin{align} \boldsymbol X=&\boldsymbol\mu+\boldsymbol A\boldsymbol F+\boldsymbol\varepsilon \\\\ X_1= & \mu_1+a_{11} F_1+a_{12} F_2+\cdots+a_{1m} F_m+\varepsilon_1, \\ X_2= & \mu_2+a_{21} F_1+a_{22} F_2+\cdots+a_{2m} F_m+\varepsilon_2, \\ & \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \\ X_p= & \mu_p+a_{p1} F_1+a_{p2} F_2+\cdots+a_{p m} F_m+\varepsilon_p \end{align}
    • \boldsymbol F称为公共因子,\boldsymbol\varepsilon称为特殊因子,\boldsymbol A称为因子载荷矩阵
    • 与主成分分析相比,因子分析减少了变量维度,将损失的精度用残差解释
  2. 性质
    • \boldsymbol\Sigma=\boldsymbol A\boldsymbol{A}^\top+\boldsymbol D,即
      \begin{align} &\mathrm{Var}\left(X_i\right) =a_{i1}^2+a_{i2}^2+\cdots+a_{i m}^2+\sigma_i^2, \\ &\mathrm{Cov}\left(X_i, X_j\right) =a_{i1} a_{j1}+a_{i2} a_{j2}+\cdots+a_{i m} a_{j m} \end{align}
    • \mathrm{Cov}(\boldsymbol X,\boldsymbol F)=\boldsymbol A,即
      \mathrm{Cov}\left(X_i, F_j\right) =a_{ij}
      矩阵\boldsymbol A的元素刻画了X_i,F_j的相关性,将a_{ij}称为X_iF_j的因子载荷
    • 将这两条性质合称为正交因子模型的协方差结构
  3. 共性方差
    • 对于变量X_i,将变量方差\mathrm{Var}\left(X_i\right)分解为共性方差h_i^2和剩余方差\sigma_i^2
      \mathrm{Var}\left(X_i\right) =a_{i1}^2+a_{i2}^2+\cdots+a_{i m}^2+\sigma_i^2=h_{i}^2+\sigma_i^2
    • 共性方差反应了X_i\boldsymbol F的总依赖程度
  4. 因子贡献
    • 对于因子F_i,其贡献为
      g_i^2=a_{1i}^2+\cdots+a_{pi}^2
    • 因子贡献衡量了因子F_i\boldsymbol X的总影响力
  5. 因子的不唯一性
    • (\boldsymbol A,\boldsymbol F,\boldsymbol \varepsilon)是符合条件的因子模型,则对于任意正交矩阵\boldsymbol \Lambda(\boldsymbol A\boldsymbol \Lambda,\boldsymbol {\Lambda}^\top\boldsymbol F,\boldsymbol \varepsilon)也是符合条件的因子模型
      \begin{align} &\mathrm{E}(\boldsymbol {\Lambda}^\top\boldsymbol F)=\boldsymbol {\Lambda}^\top\mathrm{E}(\boldsymbol F)=\boldsymbol 0 \\ &\mathrm{Cov}(\boldsymbol {\Lambda}^\top\boldsymbol F)=\boldsymbol {\Lambda}^\top\mathrm{Cov}(\boldsymbol F)\boldsymbol {\Lambda}=\boldsymbol I_m \\ &\boldsymbol A\boldsymbol\Lambda(\boldsymbol A\boldsymbol\Lambda)^\top+\boldsymbol \varepsilon=\boldsymbol A\boldsymbol A^\top+\boldsymbol \varepsilon=\boldsymbol \Sigma \end{align}
      将从\boldsymbol A得到新的因子载荷矩阵\boldsymbol A\boldsymbol\Lambda称为因子旋转
    • 因子分析时,首先计算出一个符合条件的因子载荷矩阵,在对其旋转,得到满足要求的最终因子载荷矩阵
  6. 因子载荷矩阵的估计
    • 主成分法
      选择相关阵\boldsymbol R的前m大的特征值\lambda_i以及对应的特征向量\boldsymbol v_i,根据谱分解定理有
      \boldsymbol R\approx\left(\sqrt{\lambda_1} \boldsymbol v_1, \cdots, \sqrt{\lambda_m} \boldsymbol v_m\right)\left(\begin{array}{c}\sqrt{\lambda_1} \boldsymbol v_1^{\top} \\ \vdots \\ \sqrt{\lambda_m} \boldsymbol v_m^{\top}\end{array}\right)+\boldsymbol D=\boldsymbol A\boldsymbol A^\top+\boldsymbol D
      由于舍弃了部分特征值特征向量,因此\boldsymbol A\boldsymbol A^\top\boldsymbol R不相同
      估计\boldsymbol D时,由于\boldsymbol D为对角阵,选择\boldsymbol D使得\boldsymbol A\boldsymbol A^\top+\boldsymbol D\boldsymbol R主对角线元素相同
      最终\boldsymbol A\boldsymbol A^\top+\boldsymbol D\boldsymbol R主对角线元素相同,其他元素略有差异
    • 此外还有主因子法、极大似然估计法
  7. 因子旋转矩阵的估计
    • 最大方差法:使得总相对方差最大
    • 此外还有最大四次方值法、最大平衡值法、直接Oblimin法、Promax法

分析方式对比

  1. 主成分分析
    • 先分解为p个主成分
    • 根据贡献率筛选出最重要的m个主成分
    • 对这m个主成分的意义进行解释
  2. 因子分析
    • 先确定要压缩为m个因子
    • 估计出这m个因子的表达式
    • 对因子进行旋转,直到满足要求
    • 对这m个旋转后因子的意义进行解释

时间序列

时间序列分析简介

  1. 特征
    • 长期趋势(trend): 长期内呈现出递增或递减的趋势
    • 季节变动(season): 稳定周期内的重复波动
    • 循环波动(circle): 非固定周期的反复循环波动
    • 随机波动(immediate): 噪音,平稳序列
    • 序列不止包含随机波动,那么它就是非平稳时间序列。 对这种时间序列的分析方法可以分为随机性分析和确定性分析
  2. 确定性分析
    • 典型分解式: 将时间序列分解成趋势项、季节项、平稳随机噪声项
      X_t=m_t+s_t+Y_t
    • 差分法: 对数据反复差分,直到接近平稳过程
    • 平滑法: 包括滑动平均法和指数平滑法,消除季节效应
  3. 随机性分析
    • 使用过去值和随机扰动项预测未来值
    • ARIMA、GARCH等模型
  4. 时间序列的描述
    • 均值函数
      \mu_t=\mathrm{E}(X_t)
    • 方差函数
      \sigma_t^2=\mathrm{Var}(X_t)
    • 自协方差函数
      \gamma(t,s)=\mathrm{E}[(X_t-\mu_t)(X_s-\mu_s)]
    • 自相关函数ACF
      \rho(t,s)=\frac{\gamma(t,s)}{\sigma_t\sigma_s}
  5. 平稳时间序列
    • 严平稳: 随机向量和时间无关,仅和时间差有关
    • 宽平稳: 期望值、方差有限且不随时间变化,自协方差只和时间差关
      \begin{align} &\mu_t=\mathrm{E}(X_t)\equiv\mu,\quad\sigma_t^2=\mathrm{Var}(X_t)\equiv\sigma^2=\gamma_0 \\ &\gamma(t,t+k)=\mathrm{E}[(X_t-\mu_t)(X_{t+k}-\mu_{t+k})]\equiv \gamma_k \\ &\rho(t,t+k)=\frac{\gamma(t,t+k)}{\sigma_t\sigma_{t+k}}=\frac{\gamma_k}{\gamma_0}\equiv \rho_k \end{align}
    • 性质
      \begin{align} &\rho_0=1,\quad|\rho_k|\le1 \\ &\rho_{k}=\rho_{-k},\quad \gamma_k=\gamma_{-k} \end{align}
    • 白噪声、滑动平均、随机余弦波宽平稳;随机游走不平稳(方差时变)
      \mathrm{Var}(X_t)=\mathrm{Var}(X_{t-1}+\varepsilon_t)=\cdots=\mathrm{Var}(X_{0}+\sum_{i=1}^t\varepsilon_i)=t\sigma^2
  6. 平稳时间序列的参数估计
    • 设一个平稳时间序列的观测值序列为x_1,\cdots,x_n
    • 均值
      \mu:\quad\bar x=\frac{1}{n} \sum_{t=1}^n x_t
    • 方差
      \sigma^2:\quad\widehat{\sigma^2}=\frac{1}{n-1}\sum_{t=1}^n\left(x_t-\bar x\right)^2
    • 协方差函数
      \gamma_k:\quad\hat\gamma_k=\frac{1}{n-k}\sum_{t=1}^{n-k}\left(x_t-\bar x\right)\left(x_{t+k}-\bar x\right)
    • 自相关系数
      \rho_k:\quad\hat\rho_k=\frac{\hat\gamma_k}{\hat\gamma_0}
  7. 平稳性检验
    • 图检验方法
      时序图检验: 看起来在一定范围内波动
      自相关图检验: 各阶自相关系数始终比较小
    • 单位根检验
      ADF检验: 适用于方差齐性场合
      PP检验: 适用于异方差场合
  8. 纯随机性检验
    • 纯随机性的定义
      \forall k\ne0,\gamma_k=0
      检验统计量: Q统计量、LB统计量
    • 游程检验: 检验单样本变量值是否随机

平稳时间序列分析

AR模型

  1. AR(p)模型的定义
    x_t=\phi_0+\phi_1x_{t-1}+\phi_2x_{t-2}+\cdots+\phi_p x_{t-p}+\varepsilon_t

    • 中心化: 做如下变换后的AR模型能够消除常数项\phi_0
      \mu=\frac{\phi_0}{1-\phi_1-\cdots-\phi_p}, \quad y_t=x_t-\mu
      故我们一般只讨论中心化后的模型
    • 延迟算子
      x_t=\phi_1x_{t-1}+\phi_2x_{t-2}+\cdots+\phi_p x_{t-p}+\varepsilon_t \\ \Downarrow \\ x_t-\phi_1x_{t-1}-\phi_2x_{t-2}-\cdots-\phi_p x_{t-p}=\varepsilon_t \\ \Downarrow \\ x_t-B\phi_1x_{t}-B^2\phi_2x_{t-2}-\cdots-B^p\phi_p x_{t-p}=\varepsilon_t \\ \Downarrow \\ (1-B\phi_1-B^2\phi_2-\cdots-B^p\phi_p)x_t=\varepsilon_t \\ \Downarrow \\ \Phi(B)x_t=\varepsilon_t
  2. 平稳性
    • 特征根判别: 特征方程\Phi(\lambda^{-1})=0的所有解\lambda_i都落在单位圆内
    • 平稳域判别: \phi_i落入平稳域中。AR(1)与AR(2)的平稳域如下
      \begin{align} &\text{AR(1)}:\quad -1\lt\phi_1\lt1 \\ &\text{AR(2)}:\quad -1\lt\phi_2\lt1,\phi_1\pm\phi_2\lt1 \end{align}
    • 同时通过两种判别则为平稳MA模型
  3. Green函数
    • 平稳AR(p)等效于MA(∞)
      \begin{align} x_t&=\frac{\varepsilon_t}{\Phi(B)} \\ &=\frac{\varepsilon_t}{1-B\phi_1-B^2\phi_2-\cdots-B^p\phi_p} \\ &=(1+\psi_1B+\psi_2B^2+\cdots)\varepsilon_t \\ &=\varepsilon_t+\psi_1\varepsilon_{t-1}+\psi_2\varepsilon_{t-2}+\cdots \end{align}
    • \psi_i称为Green函数,可以通过泰勒展开\frac{1}{\Phi(B)}或根据公式递推
      \psi_0=1, \quad \psi_j=\sum_{k=1}^j \phi_k^{\prime} \psi_{j-k}, \quad \phi_k^{\prime}=\begin{cases}\phi_k, & k \leq p \\0, & k>p \end{cases}
    • 特别的,对于AR(1)模型,\psi_i=\phi_1^i
      x_t=\frac{\varepsilon_t}{1-B\phi_1}=(1+B\phi_1+B^2\phi_1^2+\cdots)\varepsilon_t=\varepsilon_t+\phi_1\varepsilon_{t-1}+\phi_1^2\varepsilon_{t-2}+\cdots
  4. 统计性质
    • 均值
      \mu=\frac{\phi_0}{1-\phi_1-\cdots-\phi_p}=\frac{\phi_0}{\Phi(1)}
    • 方差
      \sigma^2=\mathrm{Var}(\varepsilon_t+\psi_1\varepsilon_{t-1}+\psi_2\varepsilon_{t-2}+\cdots)=\sigma_{\epsilon}^2\sum_{i=0}^{\infty}\psi_i^2
      特别的,对于AR(1),\sigma^2=\frac{\sigma_{\epsilon}^2}{1-\phi_1^2}
    • 自协方差,只考虑AR(1)
      \gamma_k=\phi_1^k\sigma^2
    • 自相关系数ACF,只考虑AR(1)
      \rho_k=\frac{\gamma_k}{\gamma_0}=\phi_1^k
    • 偏自相关系数PACF
      ACF描述了不同滞后项之间的关系,但这种关系受其他滞后项影响,PACF则排除了其它项的影响
      例如对于AR(1)x_tx_{t-1}一阶递推得到,但二阶ACF却显著不为0,而二阶PACF接近0
      \text{AR(p)}\quad\Rightarrow\quad \text{PACF}_k\approx\begin{cases} \phi_k&k\le p \\ 0&k\gt p \end{cases}
    • 对于AR(p)模型,ACF随阶数逐渐递减(拖尾),PACF前p阶较大,之后为较小(p期后结尾)

MA模型

  1. MA(q)模型的定义
    x_t=\mu+\varepsilon_t-\theta_1\varepsilon_{t-1}-\theta_2\varepsilon_{t-2}-\cdots-\theta_q \varepsilon_{t-q}

    • y_t=x_t-\mu得到中心化MA(q)模型
    • 延迟算子
      x_t=(1-\theta_1B-\cdots-\theta_q B^q)\varepsilon_t=\Theta(B) \varepsilon_t
  2. 可逆性
    • 特征根判别: 特征方程\Theta(\lambda^{-1})=0的所有解\lambda_i都落在单位圆内
    • 平稳域判别: \phi_i落入平稳域中。MA(1)与MA(2)的平稳域如下
      \begin{align} &\text{MA(1)}:\quad -1\lt\theta_1\lt1 \\ &\text{MA(2)}:\quad -1\lt\theta_2\lt1,\theta_1\pm\theta_2\lt1 \end{align}
    • 同时通过两种判别则为可逆MA模型
    • 类似的,可逆MA(q)等效于AR(∞)
    • 另外,MA(q)一定平稳
  3. 统计性质
    • 均值为\mu
    • 方差\sigma^2=\left(1+\theta_1^2+\cdots+\theta_q^2\right) \sigma_{\varepsilon}^2
    • 自协方差、自相关函数ACF: 根据定义易推导,表现为q阶截尾
      \begin{align}&\gamma_j= \begin{cases}\sigma^2,&j=0\\\frac{\theta_j+\theta_{j+1} \theta_1+\theta_{j+2} \theta_2+\cdots+\theta_q \theta_{q-j}}{1+\theta_1^2+\theta_2^2+\cdots+\theta_q^2} \sigma^2, & j=1,2, \cdots, q \\0, & j>q\end{cases} \\ &\rho_j= \begin{cases}1,&j=0\\\frac{\theta_j+\theta_{j+1} \theta_1+\theta_{j+2} \theta_2+\cdots+\theta_q \theta_{q-j}}{1+\theta_1^2+\theta_2^2+\cdots+\theta_q^2}, & j=1,2, \cdots, q \\0, & j>q\end{cases} \end{align}
    • 偏自相关函数: 拖尾

ARMA

  1. ARMA(p,q)模型的定义
    x_t=\phi_0+\phi_1x_{t-1}+\cdots+\phi_p x_{t-p}+\varepsilon_t-\theta_1\varepsilon_{t-1}-\cdots-\theta_q \varepsilon_{t-q}

    • 中心化后
      x_t=\phi_1x_{t-1}+\cdots+\phi_p x_{t-p}+\varepsilon_t-\theta_1\varepsilon_{t-1}-\cdots-\theta_q \varepsilon_{t-q}
    • 延迟算子
      \Phi(B) x_t=\Theta(B) \varepsilon_t
  2. 平稳性与可逆性
    • 平稳性: 等价于判断AR(p)的平稳性
    • 可逆性: 等价于判断MA(q)的可逆性
    • 平稳ARMA(p,q)等效于MA(∞),可逆ARMA等效于AR(∞)
      x_t=\frac{\Theta(B)}{\Phi(B)} \varepsilon_t\quad\quad\varepsilon_t=\frac{\Phi(B)}{\Theta(B)}x_t
  3. 统计性质
    • 均值
      \mu=\frac{\phi_0}{1-\phi_1-\cdots-\phi_p}=\frac{\phi_0}{\Phi(1)}
    • 方差、自协方差、自相关系数ACF: 转换为MA(∞)后计算
    • 自相关系数ACF与偏自相关系数PACF都是拖尾
  4. 确定阶数
    • 样本自相关系数和样本偏自相关系数的渐近正态性,从而可以利用2倍标准差范围来辅助判断
    • 若有超过5%的系数落入2倍标准差范围之外,则为拖尾。否则为d阶截尾,d为明显超过2倍标准差范围的系数
  5. 模型评判
    • AIC
    • BIC
    • SC

非平稳时间序列分析

发表评论 取消回复
表情 图片 链接 代码

分享