应用统计方法

概统基础

随机向量运算

约定
- 随机向量： $\boldsymbol x,\boldsymbol y,\boldsymbol z,\cdots$
- 随机矩阵： $\boldsymbol X,\boldsymbol Y,\boldsymbol Z,\cdots$
- 常数向量： $\boldsymbol a,\boldsymbol b,\boldsymbol c,\cdots$
- 常数矩阵： $\boldsymbol A,\boldsymbol B,\boldsymbol C,\cdots$
随机向量
- 设随机向量 $\boldsymbol x=(x_1,\cdots,x_p)^\top$ ，其元素 $x_i$ 都是随机变量
- 期望向量
  $\mathrm{E}(\boldsymbol{x})=\left(\begin{array}{c}\mathrm{E}\left(x_1\right) \\ \mathrm{E}\left(x_2\right) \\ \vdots \\ \mathrm{E}\left(x_p\right)\end{array}\right)$
  记 $\boldsymbol{\mu}=\mathrm{E}(\boldsymbol{x})$ ， $\boldsymbol{\mu}$ 为常数向量
- 协方差矩阵
  $\begin{align} &\mathrm{Cov}(\boldsymbol x)=\mathrm{E}[(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^\top]=\mathrm{E}(\boldsymbol{x}\boldsymbol{x}^\top)-\boldsymbol{\mu}\boldsymbol{\mu}^\top \\ &\mathrm{Cov}(\boldsymbol x,\boldsymbol y)=\mathrm{E}[(\boldsymbol{x}-\boldsymbol{\mu_x})(\boldsymbol{y}-\boldsymbol{\mu_y})^\top]=\mathrm{E}(\boldsymbol{x}\boldsymbol{y}^\top)-\boldsymbol{\mu_x}\boldsymbol{\mu_y}^\top \end{align}$
  记 $\boldsymbol{\Sigma}=\mathrm{Cov}(\boldsymbol x)$ ， $\boldsymbol{\Sigma}$ 为常数矩阵
  $\boldsymbol{\Sigma}$ 为实对称矩阵，可以使用谱分解定理、特征向量间正交
随机矩阵
- 设随机矩阵 $\boldsymbol X=(X_{ij})_{n\times p}$ ，其元素 $X_{ij}$ 都是随机变量
- 期望矩阵
  $\mathrm {E}(\boldsymbol X)=(\mathrm E(X_{i,j}))_{n\times p}$
  结果为常数矩阵
- 由于随机向量可以视为一维的随机矩阵，因此接下来的性质如果对随机矩阵成立，则对随机向量也成立
线性变换
- 期望
  $\begin{align} & \mathrm{E}(\boldsymbol{A X}+\boldsymbol{B})=\boldsymbol{A} \mathrm{E}(\boldsymbol{X})+\boldsymbol{B} \\ & \mathrm{E}(\boldsymbol{A X B})=\boldsymbol{A} \mathrm{E}(\boldsymbol{X}) \boldsymbol{B} \\ & \mathrm{E}(\boldsymbol{X}+\boldsymbol{Y})=\mathrm{E}(\boldsymbol{X})+\mathrm{E}(\boldsymbol{Y}) \end{align}$
- 协方差矩阵
  $\begin{align} &\mathrm{Cov}(\boldsymbol{A x}+\boldsymbol{b})=\boldsymbol{A}\mathrm{Cov}(\boldsymbol{x})\boldsymbol{A}^\top \\ &\mathrm{Cov}(\boldsymbol{A x},\boldsymbol{Bx})=\boldsymbol{A}\mathrm{Cov}(\boldsymbol{x},\boldsymbol{y})\boldsymbol{B}^\top \end{align}$
二次型
- 期望
  $\mathrm{E}\left(\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}\right)=\mathrm{tr}(\boldsymbol{A} \boldsymbol{\Sigma})+\boldsymbol{\mu}^{\top} \boldsymbol{A} \boldsymbol{\mu}$
- 特例
  若 $\boldsymbol{A}=\boldsymbol{I}$ ，则 $\mathrm{E}\left(\boldsymbol{x}^{\top} \boldsymbol{x}\right)=\mathrm{tr}( \boldsymbol{\Sigma})+\boldsymbol{\mu}^{\top} \boldsymbol{\mu}$
  若 $\boldsymbol{\mu}=\boldsymbol0$ ，则 $\mathrm{E}\left(\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}\right)=\mathrm{tr}(\boldsymbol{A} \boldsymbol{\Sigma})$
  特别提醒： $\mathrm{E}\left(\boldsymbol{x} \boldsymbol{x}^{\top}\right)=\boldsymbol{\Sigma}+\boldsymbol{\mu}\boldsymbol{\mu}^\top$
样本估计
- 设 $\boldsymbol{x}_1,\cdots,\boldsymbol{x}_n$ 是来源于随机向量 $\boldsymbol{x}$ 的独立样本
- 样本均值估计
  $\begin{align} &\hat{\boldsymbol{\mu}}:\quad \bar{\boldsymbol{x}}=\frac{1}{n}\sum_{i=1}^{n} \boldsymbol{x}_i \\ &\mathrm{E}(\bar{\boldsymbol{x}})=\boldsymbol{\mu},\quad \mathrm{Cov}(\bar{\boldsymbol{x}})=\frac{1}{n}\boldsymbol{\Sigma} \end{align}$
- 样本协方差的估计
  $\begin{align} &\hat{\boldsymbol{\Sigma}}:\quad {\boldsymbol{S}}=\frac{1}{n-1}\sum_{i=1}^n(\boldsymbol x_i-\bar{\boldsymbol x})(\boldsymbol x_i-\bar{\boldsymbol x})^\top=\frac{1}{n-1}\left(\sum_{i=1}^n \boldsymbol x_i\boldsymbol x_i^\top -n \bar{\boldsymbol x}\bar{\boldsymbol x}^\top\right) \\ &\mathrm{E}({\boldsymbol{S}})=\boldsymbol{\Sigma} \end{align}$
迹的公式
- 循环置换： $\mathrm{tr}(\boldsymbol{AB})=\mathrm{tr}(\boldsymbol{BA})$
- 线性性： $\mathrm{E}[\mathrm{tr}(\boldsymbol{AX})]=\mathrm{tr}[\boldsymbol A\mathrm{E}(\boldsymbol{X})],\mathrm{E}[\mathrm{tr}(\boldsymbol{XA})]=\mathrm{tr}[\mathrm{E}(\boldsymbol{X})\boldsymbol A]$

多元正态分布

定义
$\boldsymbol X=(X_1,\cdots,X_n)^\top\sim\mathrm{N}(\boldsymbol \mu,\boldsymbol \Sigma)$
线性变换
- 多元正态分布的线性变换一定服从多元正态分布(包括一元)
- $\boldsymbol{Y}=\boldsymbol{A}\boldsymbol{X}\sim\mathrm{N}( \boldsymbol{A}\boldsymbol\mu,\boldsymbol{A}\boldsymbol \Sigma\boldsymbol{A}^\top)$
条件分布
- 假设多元正态分布
  $\binom{\boldsymbol{U}}{\boldsymbol{V}} \sim \mathrm{N}\left(\binom{\boldsymbol{\mu}_U}{\boldsymbol{\mu}_V},\left(\begin{array}{ll}\boldsymbol{\Sigma}_{U U} & \boldsymbol{\Sigma}_{U V} \\ \boldsymbol{\Sigma}_{V U} & \boldsymbol{\Sigma}_{V V}\end{array}\right)\right)$
- 则条件分布
  $\boldsymbol U\mid\boldsymbol V=\boldsymbol v\sim\mathrm{N}\left(\boldsymbol{\mu}_U+\boldsymbol{\Sigma}_{UV}\boldsymbol{\Sigma}_{VV}^{-1}(\boldsymbol v-\boldsymbol{\mu}_V) ,\boldsymbol{\Sigma}_{UU}-\boldsymbol{\Sigma}_{UV}\boldsymbol{\Sigma}_{VV}^{-1}\boldsymbol{\Sigma}_{VU}\right)$

回归分析

方差分析

总偏差平方和: $SST=\sum(y_i-\bar y)^2$
回归平方和: $SSR=\sum(\hat y_i-\bar y)^2$
残差平方和: $SSE=\sum(y_i-\hat y_i)^2$
平方和分解式： $SST=SSR+SSE$

一元线性回归

定义
$y_i=\beta_0+\beta_1x_i+\varepsilon_i\quad\quad \varepsilon_i\sim \mathrm N(0,\sigma^2)\ \mathrm{i.i.d.}$
关键参数
- 参数的点估计
  $\begin{align} &\beta_1:\quad\hat\beta_1=\frac{\sigma_{xy}}{\sigma_x^2}=\frac{\overline{xy}-\bar x\bar y}{\overline{x^2}-{\bar x}^2} \\ &\beta_0:\quad\hat\beta_0=\bar{y}-\hat\beta_1\bar x \\ &\sigma^2:\quad s^2=\frac{SSE}{n-2} \end{align}$
- 参数点估计的抽样分布
  $\begin{align} &\hat{\beta}_1\sim N\left(\beta_1, \frac{1}{\sigma_x^2}\frac{\sigma^2}{n}\right) \\ &\hat{\beta}_0\sim N\left(\beta_0,\left[1+\frac{{\bar x}^2}{\sigma_x^2}\right]\frac{\sigma^2}{n} \right) \\ & s^2\sim\frac{\sigma^2}{n-2}\chi^2(n-2) \end{align}$
- 参数的区间估计
  $\begin{align} &\beta_1:\quad \hat{\beta}_1\pm t_{\alpha /2}(n-2) \sqrt{ \frac{1}{\sigma_x^2}\frac{s^2}{n}} \\ &\beta_0:\quad \hat{\beta}_0\pm t_{\alpha /2}(n-2) \sqrt{\left[1+\frac{{\bar x}^2}{\sigma_x^2}\right]\frac{s^2}{n}} \\ &\sigma^2:\quad\left(\frac{(n-2) s^2}{\chi_{\alpha /2}^2(n-2)}, \frac{(n-2) s^2}{\chi_{1-\alpha /2}^2( n-2)}\right) \end{align}$
估计: 给定x_i时，寻求\mathrm E(y_i)=\beta_0+\beta_1x_i
- 点估计
  $\mathrm E(y_i):\quad\widehat{\mathrm E(y_i)}=\hat\beta_0+\hat\beta_1 x_i$
- 区间估计
  $\mathrm E(y_i):\quad\widehat{\mathrm E(y_i)}\pm t_{\alpha/2}(n-2)\sqrt{\left[1+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{s^2}{n}}$
- 估计误差的抽样分布
  $\delta_i=\widehat{\mathrm E(y_i)}-\mathrm E(y_i)\sim\mathrm N\left(0,\left[1+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{\sigma^2}{n}\right)$
预测: 给定x_i时，寻求y_i=\beta_0+\beta_1x_i+\varepsilon_i
- 点估计
  $y_i:\quad\hat y_i=\hat\beta_0+\hat\beta_1 x_i$
- 区间估计
  $y_i:\quad\hat y_i\pm t_{\alpha/2}(n-2)\sqrt{\left[1+n+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{s^2}{n}}$
- 预测误差的抽样分布
  $e_i=\hat y_i-y_i\sim\mathrm N\left(0,\left[1+n+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{\sigma^2}{n}\right)$
显著性检验
- F检验: $H_0:\beta_1=0$ ，单侧检验，过大拒绝
  $F=\frac{SSR}{SSE/(n-2)}\sim F(1,n-2)$
- t检验: $H_0:\beta_1=0$ ，双侧检验
  $t=\frac{\hat\beta_1\sqrt{n\sigma_x^2}}{s}=\frac{\hat\beta_1\sqrt{n\sigma_x^2}}{\sqrt{SSE/(n-2)}}\sim t(n-2)$
- 相关系数检验: $H_0:\rho=0$ ，单侧检验，过小拒绝
  $r=\left|\frac{\sigma_{xy}}{\sigma_x\sigma_y}\right|\sim \sqrt\frac{F(1,n-2)}{F(1,n-2)+(n-2)}$
  或者 $t=r\sqrt\frac{n-2}{1-r^2}\sim t(n-2)$ ，此时为双侧检验

多元线性回归

定义
y_i=\beta_0+\beta_1 x_{i1}+\cdots+\beta_p x_{ip}+\varepsilon_i\quad\quad \varepsilon_i\sim\mathrm N(0,\sigma^2)\ \mathrm{i.i.d.}
- 矩阵形式
  $\begin{align} &\boldsymbol{y}=\left(\begin{array}{c}y_1\\ \vdots \\ y_n\end{array}\right), \quad \boldsymbol{X}=\left(\begin{array}{cccc}1& x_{11} & \cdots & x_{1p} \\ \vdots & \vdots & \ddots & \vdots \\1& x_{n1} & \cdots & x_{n p}\end{array}\right), \quad \boldsymbol{\beta}=\left(\begin{array}{c}\beta_0\\ \beta_1\\ \vdots \\ \beta_p\end{array}\right), \quad \boldsymbol{\varepsilon}=\left(\begin{array}{c}\varepsilon_1\\ \vdots \\ \varepsilon_n\end{array}\right) \\ &\boldsymbol{y}=\boldsymbol{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon}, \quad \boldsymbol{\varepsilon} \sim \mathrm{N}_n\left(\boldsymbol{0}, \sigma^2\boldsymbol{I}_n\right) \end{align}$
- 帽子矩阵
  $\boldsymbol{H}=\boldsymbol{X}\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top}$
- $\boldsymbol{y}$ 的拟合值
  $\hat{\boldsymbol{y}}=\boldsymbol{X} \hat{\boldsymbol{\beta}}=\boldsymbol{H} \boldsymbol{y}=\boldsymbol{X}\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y}$
- 残差向量
  $\boldsymbol{e}=\boldsymbol{y}-\hat{\boldsymbol{y}}=\left(\boldsymbol{I}_n-\boldsymbol{H}\right) \boldsymbol{y}$
  此时有 $SSE=\boldsymbol{e}^\top\boldsymbol{e}$
关键参数
- 参数的点估计
  $\begin{align} &\boldsymbol{\beta}:\quad \hat{\boldsymbol{\beta}}=\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y} \\ &\sigma^2:\quad s^2=\frac{SSE}{n-p-1} \end{align}$
- 参数点估计的抽样分布
  $\begin{align} &\hat{\boldsymbol{\beta}}\sim\mathrm N_{p+1}\left(\boldsymbol{\beta},\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1}\sigma^2\right) \\ &s^2\sim\frac{\sigma^2}{n-p-1}\chi^2(n-p-1) \end{align}$
回归模型的评估
- 判定系数
  $R^2=\frac{\mathrm{SSR}}{\mathrm{SST}}, \quad R_{\mathrm{adj}}^2=1-\frac{(n-1)\left(1-R^2\right)}{n-p-1}=1-\frac{(n-1) \mathrm{SSE}}{(n-p-1) \mathrm{SST}}$
- F检验: $H_0:\beta_1=\cdots=\beta_p=0$ ，单侧检验，过大拒绝
  $F=\frac{{SSR} / p}{{SSE} /(n-p-1)}\sim F(p,n-p-1)$
- t检验: $H_0:\beta_i=0$ ，双侧检验
  $t=\frac{\hat\beta_1}{s\sqrt{b_{ii}}}=\frac{\hat\beta_1}{\sqrt{b_{ii}SSE/(n-p-1)}}\sim t(n-p-1)$
  其中 $b_{ii}$ 为矩阵 $\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1}$ 的第 $i$ 个主对角元
回归方法
- 最小二乘法
  $\hat{\boldsymbol{\beta}}=\argmin\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2=\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y}$
  无偏估计，易受多重共线性、过拟合、异常值的影响，无法用于高维数据（ $p\gt n$ ）
- 岭回归
  $\hat{\boldsymbol{\beta}}(\lambda)=\argmin\left\{\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2^2+\lambda\|\boldsymbol{\beta}\|_2^2\right\}=\left(\boldsymbol{X}^{\top} \boldsymbol{X}+\lambda\boldsymbol{I}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y}$
  有偏估计，能够应对最小二乘法面临的问题
- LASSO回归
  $\hat{\boldsymbol{\beta}}(\lambda)=\argmin\left\{\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2^2+\lambda\|\boldsymbol{\beta}\|_1\right\}$
  有偏估计，没有解析解，特别适合高维数据，能够将不重要自变量的系数变为0，实现压缩维度
- Elastic Net回归
  $\hat{\boldsymbol{\beta}}(\lambda,\alpha)=\argmin\left\{\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2^2+\lambda\left[\alpha\|\boldsymbol{\beta}\|_1+(1-\alpha)\|\boldsymbol{\beta}\|_2^2\right]\right\}$
- 注意1范数都没有平方，PPT有误

Logistic回归

定义
\ln\frac{p_i}{1-p_i}=\beta_0+\beta_1x_{1i}+\cdots+\beta_kx_{ki}
- 拟合值
  $\hat{p}_i=\frac{1}{1+e^{-(\hat\beta_0+\hat\beta_1x_{1i}+\cdots+\hat\beta_kx_{ki})}}$
分类: 从\hat{p}_i确定\hat{y}_i
- 阈值 $d$
  $\begin{cases} \hat{y}_i=1&\hat{p}_i\ge d \\ \hat{y}_i=0&\hat{p}_i\lt d \end{cases}$
- 阈值的选择
  朴素选择: $d$ 等于0.5
  先验选择: $d$ 等于样本中 $y_i=1$ 的比例
  最优阈值: $d$ 的值使得犯第一类错误最小
参数的估计
- 使用极大似然估计，记
  $\begin{align} &\boldsymbol{\beta}=(\beta_0,\beta_1,\cdots,\beta_k)^\top \\ &\boldsymbol{x}_i=(x_{1i},\cdots,x_{ki})^\top \\ &\pi(\boldsymbol{x}_{i})=\frac{1}{1+e^{-\boldsymbol{\beta}^\top\boldsymbol{x_i}}} \end{align}$
- 似然函数
  $L(\boldsymbol{\beta})=\prod_{i=1}^n\left[\pi\left(\boldsymbol{x}_i\right)\right]^{y_i}\left[1-\pi\left(\boldsymbol{x}_i\right)\right]^{1-y_i}$
- 对数似然函数
  $\begin{align} \ln L(\boldsymbol{\beta}) &=\sum_{i=1}^n\left[y_i \ln \pi\left(\boldsymbol{x}_i\right)+\left(1-y_i\right) \ln \left(1-\pi\left(\boldsymbol{x}_i\right)\right)\right] \\ &=\sum_{i=1}^n \ln \left(1-\pi\left(\boldsymbol{x}_i\right)\right)+\sum_{i=1}^n y_i \ln \frac{\pi\left(\boldsymbol{x}_i\right)}{1-\pi\left(\boldsymbol{x}_i\right)} \end{align}$
- 根据对数似然函数求出 $\hat{\boldsymbol{\beta}}$ ，通常无解析解

主成分和因子分析

主成分分析

定义
- 对于 $p$ 元随机向量，其均值和协方差阵分别为 $\boldsymbol\mu, \boldsymbol\Sigma$
  $\boldsymbol X=(X_1,\cdots,X_p)^\top$
- 考虑关于 $\boldsymbol X$ 的 $p$ 个线性组合
  $\begin{aligned} {Y}_1= & \boldsymbol{a}_1^{\top} \boldsymbol{X}=a_{11} X_1+a_{12} X_2+\cdots+a_{1p} X_p, \\ {Y}_2= & \boldsymbol{a}_2^{\top} \boldsymbol{X}=a_{21} X_1+a_{22} X_2+\cdots+a_{2p} X_p, \\ & \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \\ {Y}_p= & \boldsymbol{a}_p^{\top} \boldsymbol{X}=a_{p1} X_1+a_{p2} X_2+\cdots+a_{p p} X_p .\end{aligned}$
- 要求 $\boldsymbol{a}_i$ 满足
  $\begin{align} &\boldsymbol{a}_i^{\top}\boldsymbol{a}_i=1\quad\quad\mathrm{Cov}({Y}_i,{Y}_j)=\boldsymbol{a}_i^{\top}\boldsymbol{\Sigma}\boldsymbol{a}_j=0 \\ &\mathrm{Var}({Y}_i)=\boldsymbol{a}_i^{\top}\boldsymbol{\Sigma}\boldsymbol{a}_i\lt\mathrm{Var}({Y}_j)=\boldsymbol{a}_j^{\top}\boldsymbol{\Sigma}\boldsymbol{a}_j\quad(1\le i\lt j\le p) \end{align}$
- 则称 ${Y}_i$ 为第 $i$ 主成分
主成分的求法
- 定义 $\boldsymbol A=(\boldsymbol{a}_1,\cdots,\boldsymbol{a}_p)$ ， $\boldsymbol Y=(Y_1,\cdots,Y_p)^\top$ ，则
  $\boldsymbol{Y}=\left(\begin{array}{c}Y_1\\ Y_2\\ \vdots \\ Y_p\end{array}\right)=\left(\begin{array}{c}\boldsymbol{a}_1^{\top} \boldsymbol{X} \\ \boldsymbol{a}_2^{\top} \boldsymbol{X} \\ \vdots \\ \boldsymbol{a}_p^{\top} \boldsymbol{X}\end{array}\right)=\boldsymbol{A}^{\top} \boldsymbol{X}$
  由于 $\boldsymbol A^\top\boldsymbol A=\boldsymbol I$ ，因此有 $\boldsymbol{X}=\boldsymbol{A}\boldsymbol{Y}$
- 从协方差阵 $\boldsymbol{\Sigma}$ 求主成分
  协方差矩阵 $\boldsymbol{\Sigma}$ 一定是实对称矩阵，特征向量间正交。因此选择 $\boldsymbol{\Sigma}$ 的归一化后特征向量作为 $\boldsymbol{\alpha}_i$ ，有
  $\begin{align} &\mathrm{Var}({Y}_i)=\boldsymbol{\alpha}_i^\top\boldsymbol{\Sigma}\boldsymbol{\alpha}_i=\boldsymbol{\alpha}_i^\top\lambda_i\boldsymbol{\alpha}_i=\lambda_i \\ &\mathrm{Cov}({Y}_i,{Y}_j)=\boldsymbol{\alpha}_i^\top\boldsymbol{\Sigma}\boldsymbol{\alpha}_j=\boldsymbol{\alpha}_i^\top\lambda_j\boldsymbol{\alpha}_j=0 \\ &\mathrm{Cov}(\boldsymbol Y)=\mathrm{diag}(\lambda_1,\cdots,\lambda_p) \\ &\sum_{i=1}^p\mathrm{Var}(X_i)=\mathrm{tr}(\boldsymbol{\Sigma})=\sum_{i=1}^p\lambda_i=\sum_{i=1}^p\mathrm{Var}(Y_i) \end{align}$
  根据 $\mathrm{Var}(\boldsymbol{Y}_i)=\lambda_i$ 计算第 $i$ 主成分的贡献率
  $\frac{\lambda_i}{\lambda_1+\cdots+\lambda_p}$
- 从相关阵 $\boldsymbol{R}$ 求主成分
  协方差大小受变量的量纲大小影响，改为使用相关系数矩阵可以解决这个问题。对所有 $X_i$ 归一化
  $X_i^\ast=\frac{X_i-\mu_i}{\sqrt{\mathrm{Var}(X_i)}}$
  对于 $\boldsymbol X^\ast$ ，其相关阵 $\boldsymbol{R}$ 与协方差阵 $\boldsymbol{\Sigma}$ 相同。也可以从协方差阵 $\boldsymbol{\Sigma}$ 直接计算相关阵 $\boldsymbol{R}$
  $\boldsymbol R=\boldsymbol D\boldsymbol \Sigma\boldsymbol D\quad\quad \boldsymbol D=\mathrm{diag}\left(\frac{1}{\sqrt{\mathrm{Var}(X_1)}},\cdots,\frac{1}{\sqrt{\mathrm{Var}(X_p)}}\right)$
  相关阵 $\boldsymbol{R}$ 的主对角线都为1，因此第 $i$ 主成分的贡献率为
  $\frac{\lambda_i^\ast}{\lambda_1^\ast+\cdots+\lambda_p^\ast}=\frac{{\lambda_i^\ast}}{p}$
  最后需要将主成分中的 $X_i^\ast$ 还原为 $X_i$
  $Y_i^\ast=a_{i1}^\ast X_1^\ast+\cdots+a_{ip}^\ast X_p^\ast=a_{i1}^\ast \frac{X_1-\mu_1}{\sqrt{\mathrm{Var}(X_1)}}+\cdots+a_{ip}^\ast \frac{X_p-\mu_p}{\sqrt{\mathrm{Var}(X_p)}}$
因子载荷
- 每个主成分 $Y_i$ 和变量 $X_j$ 的相关系数
  $\mathrm{Corr}(Y_i,X_j)=\frac{\alpha_{ij}\sqrt{\lambda_i}}{\sqrt{\mathrm{Var}(X_j)}}$
- 为了和前文一致，系数向量 $\boldsymbol{\alpha}_i=(\alpha_{i1},\cdots,\alpha_{ip})^\top$ ，与PPT不同
$\boldsymbol\mu, \boldsymbol\Sigma$ 的估计
$\begin{align} &\mu_i:\quad \bar{x}_i=\frac{1}{n}\sum_{\alpha=1}^n x_{i\alpha} \\ &\mathrm{Var}(X_i):\quad s_{ii}=\frac{1}{n-1}\sum_{\alpha=1}^n\left( x_{i\alpha}-\bar{x}_i\right)^2 \\ &\mathrm{Cov}(X_i,X_j):\quad s_{ij}=\frac{1}{n-1}\sum_{\alpha=1}^n\left( x_{i\alpha}-\bar{x}_i\right)\left( x_{j\alpha}-\bar{x}_j\right) \end{align}$
相关性判定
- KMO检验: 检验统计量小于0.5不适合做主成分分析，大于0.7主成分分析效果比较好
- Bartlett球形检验: p值接近0适合做主成分分析

因子分析

定义
- 对于 $p$ 元随机向量，其均值和协方差阵分别为 $\boldsymbol\mu, \boldsymbol\Sigma$
  $\boldsymbol X=(X_1,\cdots,X_p)^\top$
- 考虑 $m$ 维向量（ $m\lt p$ ）
  $\boldsymbol F=(F_1,\cdots,F_m)^\top$
  要求 $\mathrm{E}(\boldsymbol F)=\boldsymbol 0,\mathrm{Cov}(\boldsymbol F)=\boldsymbol{I}_m$
- 和 $p$ 维残差向量
  $\boldsymbol \varepsilon=(\varepsilon_1,\cdots,\varepsilon_p)^\top$
  要求 $\mathrm{E}(\boldsymbol\varepsilon)=\boldsymbol 0,\mathrm{Cov}(\boldsymbol\varepsilon)=\mathrm{diag}(\sigma_1^2,\cdots,\sigma_p^2),\mathrm{Cov}(\boldsymbol F,\boldsymbol \varepsilon)=\boldsymbol 0$
  将 $\mathrm{Cov}(\boldsymbol\varepsilon)$ 记为 $\boldsymbol D$
- 满足正交因子模型
  $\begin{align} \boldsymbol X=&\boldsymbol\mu+\boldsymbol A\boldsymbol F+\boldsymbol\varepsilon \\\\ X_1= & \mu_1+a_{11} F_1+a_{12} F_2+\cdots+a_{1m} F_m+\varepsilon_1, \\ X_2= & \mu_2+a_{21} F_1+a_{22} F_2+\cdots+a_{2m} F_m+\varepsilon_2, \\ & \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \\ X_p= & \mu_p+a_{p1} F_1+a_{p2} F_2+\cdots+a_{p m} F_m+\varepsilon_p \end{align}$
- $\boldsymbol F$ 称为公共因子， $\boldsymbol\varepsilon$ 称为特殊因子， $\boldsymbol A$ 称为因子载荷矩阵
- 与主成分分析相比，因子分析减少了变量维度，将损失的精度用残差解释
性质
- $\boldsymbol\Sigma=\boldsymbol A\boldsymbol{A}^\top+\boldsymbol D$ ，即
  $\begin{align} &\mathrm{Var}\left(X_i\right) =a_{i1}^2+a_{i2}^2+\cdots+a_{i m}^2+\sigma_i^2, \\ &\mathrm{Cov}\left(X_i, X_j\right) =a_{i1} a_{j1}+a_{i2} a_{j2}+\cdots+a_{i m} a_{j m} \end{align}$
- $\mathrm{Cov}(\boldsymbol X,\boldsymbol F)=\boldsymbol A$ ，即
  $\mathrm{Cov}\left(X_i, F_j\right) =a_{ij}$
  矩阵 $\boldsymbol A$ 的元素刻画了 $X_i,F_j$ 的相关性，将 $a_{ij}$ 称为 $X_i$ 在 $F_j$ 的因子载荷
- 将这两条性质合称为正交因子模型的协方差结构
共性方差
- 对于变量 $X_i$ ，将变量方差 $\mathrm{Var}\left(X_i\right)$ 分解为共性方差 $h_i^2$ 和剩余方差 $\sigma_i^2$
  $\mathrm{Var}\left(X_i\right) =a_{i1}^2+a_{i2}^2+\cdots+a_{i m}^2+\sigma_i^2=h_{i}^2+\sigma_i^2$
- 共性方差反应了 $X_i$ 对 $\boldsymbol F$ 的总依赖程度
因子贡献
- 对于因子 $F_i$ ，其贡献为
  $g_i^2=a_{1i}^2+\cdots+a_{pi}^2$
- 因子贡献衡量了因子 $F_i$ 对 $\boldsymbol X$ 的总影响力
因子的不唯一性
- 若 $(\boldsymbol A,\boldsymbol F,\boldsymbol \varepsilon)$ 是符合条件的因子模型，则对于任意正交矩阵 $\boldsymbol \Lambda$ ， $(\boldsymbol A\boldsymbol \Lambda,\boldsymbol {\Lambda}^\top\boldsymbol F,\boldsymbol \varepsilon)$ 也是符合条件的因子模型
  $\begin{align} &\mathrm{E}(\boldsymbol {\Lambda}^\top\boldsymbol F)=\boldsymbol {\Lambda}^\top\mathrm{E}(\boldsymbol F)=\boldsymbol 0 \\ &\mathrm{Cov}(\boldsymbol {\Lambda}^\top\boldsymbol F)=\boldsymbol {\Lambda}^\top\mathrm{Cov}(\boldsymbol F)\boldsymbol {\Lambda}=\boldsymbol I_m \\ &\boldsymbol A\boldsymbol\Lambda(\boldsymbol A\boldsymbol\Lambda)^\top+\boldsymbol \varepsilon=\boldsymbol A\boldsymbol A^\top+\boldsymbol \varepsilon=\boldsymbol \Sigma \end{align}$
  将从 $\boldsymbol A$ 得到新的因子载荷矩阵 $\boldsymbol A\boldsymbol\Lambda$ 称为因子旋转
- 因子分析时，首先计算出一个符合条件的因子载荷矩阵，在对其旋转，得到满足要求的最终因子载荷矩阵
因子载荷矩阵的估计
- 主成分法
  选择相关阵 $\boldsymbol R$ 的前 $m$ 大的特征值 $\lambda_i$ 以及对应的特征向量 $\boldsymbol v_i$ ，根据谱分解定理有
  $\boldsymbol R\approx\left(\sqrt{\lambda_1} \boldsymbol v_1, \cdots, \sqrt{\lambda_m} \boldsymbol v_m\right)\left(\begin{array}{c}\sqrt{\lambda_1} \boldsymbol v_1^{\top} \\ \vdots \\ \sqrt{\lambda_m} \boldsymbol v_m^{\top}\end{array}\right)+\boldsymbol D=\boldsymbol A\boldsymbol A^\top+\boldsymbol D$
  由于舍弃了部分特征值特征向量，因此 $\boldsymbol A\boldsymbol A^\top$ 与 $\boldsymbol R$ 不相同
  估计 $\boldsymbol D$ 时，由于 $\boldsymbol D$ 为对角阵，选择 $\boldsymbol D$ 使得 $\boldsymbol A\boldsymbol A^\top+\boldsymbol D$ 与 $\boldsymbol R$ 主对角线元素相同
  最终 $\boldsymbol A\boldsymbol A^\top+\boldsymbol D$ 与 $\boldsymbol R$ 主对角线元素相同，其他元素略有差异
- 此外还有主因子法、极大似然估计法
因子旋转矩阵的估计
- 最大方差法：使得总相对方差最大
- 此外还有最大四次方值法、最大平衡值法、直接Oblimin法、Promax法

分析方式对比

主成分分析
- 先分解为 $p$ 个主成分
- 根据贡献率筛选出最重要的 $m$ 个主成分
- 对这 $m$ 个主成分的意义进行解释
因子分析
- 先确定要压缩为 $m$ 个因子
- 估计出这 $m$ 个因子的表达式
- 对因子进行旋转，直到满足要求
- 对这 $m$ 个旋转后因子的意义进行解释

时间序列

时间序列分析简介

特征
- 长期趋势(trend): 长期内呈现出递增或递减的趋势
- 季节变动(season): 稳定周期内的重复波动
- 循环波动(circle): 非固定周期的反复循环波动
- 随机波动(immediate): 噪音，平稳序列
- 序列不止包含随机波动，那么它就是非平稳时间序列。对这种时间序列的分析方法可以分为随机性分析和确定性分析
确定性分析
- 典型分解式: 将时间序列分解成趋势项、季节项、平稳随机噪声项
  $X_t=m_t+s_t+Y_t$
- 差分法: 对数据反复差分，直到接近平稳过程
- 平滑法: 包括滑动平均法和指数平滑法，消除季节效应
随机性分析
- 使用过去值和随机扰动项预测未来值
- ARIMA、GARCH等模型
时间序列的描述
- 均值函数
  $\mu_t=\mathrm{E}(X_t)$
- 方差函数
  $\sigma_t^2=\mathrm{Var}(X_t)$
- 自协方差函数
  $\gamma(t,s)=\mathrm{E}[(X_t-\mu_t)(X_s-\mu_s)]$
- 自相关函数ACF
  $\rho(t,s)=\frac{\gamma(t,s)}{\sigma_t\sigma_s}$
平稳时间序列
- 严平稳: 随机向量和时间无关，仅和时间差有关
- 宽平稳: 期望值、方差有限且不随时间变化，自协方差只和时间差关
  $\begin{align} &\mu_t=\mathrm{E}(X_t)\equiv\mu,\quad\sigma_t^2=\mathrm{Var}(X_t)\equiv\sigma^2=\gamma_0 \\ &\gamma(t,t+k)=\mathrm{E}[(X_t-\mu_t)(X_{t+k}-\mu_{t+k})]\equiv \gamma_k \\ &\rho(t,t+k)=\frac{\gamma(t,t+k)}{\sigma_t\sigma_{t+k}}=\frac{\gamma_k}{\gamma_0}\equiv \rho_k \end{align}$
- 性质
  $\begin{align} &\rho_0=1,\quad|\rho_k|\le1 \\ &\rho_{k}=\rho_{-k},\quad \gamma_k=\gamma_{-k} \end{align}$
- 白噪声、滑动平均、随机余弦波宽平稳；随机游走不平稳（方差时变）
  $\mathrm{Var}(X_t)=\mathrm{Var}(X_{t-1}+\varepsilon_t)=\cdots=\mathrm{Var}(X_{0}+\sum_{i=1}^t\varepsilon_i)=t\sigma^2$
平稳时间序列的参数估计
- 设一个平稳时间序列的观测值序列为 $x_1,\cdots,x_n$
- 均值
  $\mu:\quad\bar x=\frac{1}{n} \sum_{t=1}^n x_t$
- 方差
  $\sigma^2:\quad\widehat{\sigma^2}=\frac{1}{n-1}\sum_{t=1}^n\left(x_t-\bar x\right)^2$
- 协方差函数
  $\gamma_k:\quad\hat\gamma_k=\frac{1}{n-k}\sum_{t=1}^{n-k}\left(x_t-\bar x\right)\left(x_{t+k}-\bar x\right)$
- 自相关系数
  $\rho_k:\quad\hat\rho_k=\frac{\hat\gamma_k}{\hat\gamma_0}$
平稳性检验
- 图检验方法
  时序图检验: 看起来在一定范围内波动
  自相关图检验: 各阶自相关系数始终比较小
- 单位根检验
  ADF检验: 适用于方差齐性场合
  PP检验: 适用于异方差场合
纯随机性检验
- 纯随机性的定义
  $\forall k\ne0,\gamma_k=0$
  检验统计量: Q统计量、LB统计量
- 游程检验: 检验单样本变量值是否随机

平稳时间序列分析

AR模型

AR(p)模型的定义
x_t=\phi_0+\phi_1x_{t-1}+\phi_2x_{t-2}+\cdots+\phi_p x_{t-p}+\varepsilon_t
- 中心化: 做如下变换后的AR模型能够消除常数项 $\phi_0$
  $\mu=\frac{\phi_0}{1-\phi_1-\cdots-\phi_p}, \quad y_t=x_t-\mu$
  故我们一般只讨论中心化后的模型
- 延迟算子
  $x_t=\phi_1x_{t-1}+\phi_2x_{t-2}+\cdots+\phi_p x_{t-p}+\varepsilon_t \\ \Downarrow \\ x_t-\phi_1x_{t-1}-\phi_2x_{t-2}-\cdots-\phi_p x_{t-p}=\varepsilon_t \\ \Downarrow \\ x_t-B\phi_1x_{t}-B^2\phi_2x_{t}-\cdots-B^p\phi_p x_{t}=\varepsilon_t \\ \Downarrow \\ (1-B\phi_1-B^2\phi_2-\cdots-B^p\phi_p)x_t=\varepsilon_t \\ \Downarrow \\ \Phi(B)x_t=\varepsilon_t$
平稳性
- 特征根判别: 特征方程 $\Phi(\lambda^{-1})=0$ 的所有解 $\lambda_i$ 都落在单位圆内
- 平稳域判别: $\phi_i$ 落入平稳域中。AR(1)与AR(2)的平稳域如下
  $\begin{align} &\text{AR(1)}:\quad -1\lt\phi_1\lt1 \\ &\text{AR(2)}:\quad -1\lt\phi_2\lt1,\phi_2\pm\phi_1\lt1 \end{align}$
- 同时通过两种判别则为平稳AR模型
Green函数
- 平稳AR(p)等效于MA(∞)
  $\begin{align} x_t&=\frac{\varepsilon_t}{\Phi(B)} \\ &=\frac{\varepsilon_t}{1-B\phi_1-B^2\phi_2-\cdots-B^p\phi_p} \\ &=(1+\psi_1B+\psi_2B^2+\cdots)\varepsilon_t \\ &=\varepsilon_t+\psi_1\varepsilon_{t-1}+\psi_2\varepsilon_{t-2}+\cdots \end{align}$
- $\psi_i$ 称为Green函数，可以通过泰勒展开 $\frac{1}{\Phi(B)}$ 或根据公式递推
  $\psi_0=1, \quad \psi_j=\sum_{k=1}^j \phi_k^{\prime} \psi_{j-k}, \quad \phi_k^{\prime}=\begin{cases}\phi_k, & k \leq p \\0, & k>p \end{cases}$
- 特别的，对于AR(1)模型， $\psi_i=\phi_1^i$
  $x_t=\frac{\varepsilon_t}{1-B\phi_1}=(1+B\phi_1+B^2\phi_1^2+\cdots)\varepsilon_t=\varepsilon_t+\phi_1\varepsilon_{t-1}+\phi_1^2\varepsilon_{t-2}+\cdots$
统计性质
- 均值
  $\mu=\frac{\phi_0}{1-\phi_1-\cdots-\phi_p}=\frac{\phi_0}{\Phi(1)}$
- 方差
  $\sigma^2=\mathrm{Var}(\varepsilon_t+\psi_1\varepsilon_{t-1}+\psi_2\varepsilon_{t-2}+\cdots)=\sigma_{\epsilon}^2\sum_{i=0}^{\infty}\psi_i^2$
  对于AR(1)
  $\sigma^2=\frac{\sigma_{\epsilon}^2}{1-\phi_1^2}$
  对于AR(2)
  $\sigma^2=\frac{\left(1-\phi_2\right) \sigma_{\varepsilon}^2}{\left(1+\phi_2\right)\left(1-\phi_1-\phi_2\right)\left(1+\phi_1-\phi_2\right)}$
- 自协方差
  对于AR(1)
  $\gamma_k=\phi_1^k\sigma^2$
  对于AR(2)
  $\gamma_k=\begin{cases}\sigma^2 & k=0; \\ \frac{\phi_1}{1-\phi_2}\sigma^2 & k=1; \\\phi_1\gamma_{k-1}+\phi_2\gamma_{k-2} & k \ge2.\end{cases}$
- 自相关系数ACF
  对于AR(1)
  $\rho_k=\phi_1^k$
  对于AR(2)
  $\rho_k=\begin{cases}1 & k=0; \\ \frac{\phi_1}{1-\phi_2} & k=1; \\\phi_1\rho_{k-1}+\phi_2\rho_{k-2} & k \ge2.\end{cases}$
- 偏自相关系数PACF
  ACF描述了不同滞后项之间的关系，但这种关系受其他滞后项影响，PACF则排除了其它项的影响
  例如对于 $AR(1)$ ， $x_t$ 只由 $x_{t-1}$ 一阶递推得到，但二阶ACF却显著不为0，而二阶PACF接近0
  对于AR(p)模型，ACF随阶数逐渐递减（拖尾），PACF前p阶较大，之后为较小（p期后截尾）
  $\text{AR(p)}\quad\Rightarrow\quad \begin{cases} \phi_{kk}\ne0&k\le p \\ \phi_{kk}=0&k\gt p \end{cases}$
  对于AR(1)模型
  $\phi_{k k}=\left\{\begin{array}{cc}\phi_1 & k=1; \\0 & k \geq2.\end{array}\right.$
  对于AR(2)模型
  $\phi_{k k}=\left\{\begin{array}{cc}\frac{\phi_1}{1-\phi_2} & k=1; \\ \phi_2 & k=2; \\0, & k \geq3.\end{array}\right.$
预测
- 预测值
  $\begin{align} &x_t=(1-\Phi(B)) x_t+\varepsilon_t \\ &\hat{x}_{t+l}=(1-\Phi(B)) \hat{x}_{t+l} \end{align}$
  其中
  $\hat{x}_{t+k}={x}_{t+k}\quad(k\le 0)$
- 预测方差
  $\begin{align} & x_{t+l}=\frac{1}{\Phi(B)}\varepsilon_t= {\color{Red} \varepsilon_{t+l}+\psi_1\varepsilon_{t+l-1}+\cdots+\psi_{l-1}\varepsilon_{t+1}}+{\color{Blue} \psi_{l}\varepsilon_{t}+\cdots} \\ &\mathrm{Var}(x_{t+l})=(1+\psi_1^2+\cdots+\psi_{l-1}^2)\sigma_\varepsilon^2 \end{align}$
- 置信区间
  $\hat{x}_{t+l}\pm z_{\frac{\alpha}{2}}\sqrt{\mathrm{Var}(x_{t+l})}$

MA模型

MA(q)模型的定义
x_t=\mu+\varepsilon_t-\theta_1\varepsilon_{t-1}-\theta_2\varepsilon_{t-2}-\cdots-\theta_q \varepsilon_{t-q}
- 令 $y_t=x_t-\mu$ 得到中心化MA(q)模型
- 延迟算子
  $x_t=(1-\theta_1B-\cdots-\theta_q B^q)\varepsilon_t=\Theta(B) \varepsilon_t$
可逆性
- 特征根判别: 特征方程 $\Theta(\lambda^{-1})=0$ 的所有解 $\lambda_i$ 都落在单位圆内
- 平稳域判别: $\phi_i$ 落入平稳域中。MA(1)与MA(2)的平稳域如下
  $\begin{align} &\text{MA(1)}:\quad -1\lt\theta_1\lt1 \\ &\text{MA(2)}:\quad -1\lt\theta_2\lt1,\theta_2\pm\theta_1\lt1 \end{align}$
- 同时通过两种判别则为可逆MA模型
- 类似的，可逆MA(q)等效于AR(∞)
- 另外，MA(q)一定平稳
统计性质
- 均值为 $\mu$
- 方差 $\sigma^2=\left(1+\theta_1^2+\cdots+\theta_q^2\right) \sigma_{\varepsilon}^2$
- 自协方差、自相关函数ACF: 根据定义易推导，表现为q阶截尾
  $\begin{align}&\gamma_j= \begin{cases}\sigma^2&j=0\\\frac{-\theta_j+\theta_{j+1} \theta_1+\theta_{j+2} \theta_2+\cdots+\theta_q \theta_{q-j}}{1+\theta_1^2+\theta_2^2+\cdots+\theta_q^2} \sigma^2 & j=1,2, \cdots, q \\0 & j>q\end{cases} \\ &\rho_j= \begin{cases}1&j=0\\\frac{-\theta_j+\theta_{j+1} \theta_1+\theta_{j+2} \theta_2+\cdots+\theta_q \theta_{q-j}}{1+\theta_1^2+\theta_2^2+\cdots+\theta_q^2} & j=1,2, \cdots, q \\0 & j>q\end{cases} \end{align}$
- 偏自相关函数PACF
  对于MA(1)模型
  $\phi_{k k}=\frac{-\theta_1^k}{\sum_{j=0}^k \theta_1^{2j}}$
  MA(q)模型等效于AR(∞)，因此PACF拖尾
预测
- 预测值
  $\begin{align} &x_t=\Theta(B) \varepsilon_t \\ &\hat{x}_{t+l}=\Theta(B) \hat{\varepsilon}_{t+l} \end{align}$
  其中
  $\begin{cases} \hat{\varepsilon}_{t+k}={\varepsilon}_{t+k}&k\le 0 \\ \hat{\varepsilon}_{t+k}=0&k\gt 0 \end{cases}$
  因此 $l\gt q$ 时 $\hat{x}_{t+l}=0$ （若未中心化则 $\hat{x}_{t+l}=\mu$ ）
- 预测方差
  $\begin{align} & x_{t+l}=\Theta(B) \varepsilon_t={\color{Red} \varepsilon_{t+l}-\theta_1\varepsilon_{t+l-1}-\cdots-\theta_{l-1}\varepsilon_{t+1}}-{\color{Blue} \theta_{l}\varepsilon_{t}\cdots} \\ &\mathrm{Var}(x_{t+l})=(1+\theta_1^2+\cdots+\theta_{l-1}^2)\sigma_\varepsilon^2 \end{align}$
- 置信区间
  $\hat{x}_{t+l}\pm z_{\frac{\alpha}{2}}\sqrt{\mathrm{Var}(x_{t+l})}$

ARMA模型

ARMA(p,q)模型的定义
x_t=\phi_0+\phi_1x_{t-1}+\cdots+\phi_p x_{t-p}+\varepsilon_t-\theta_1\varepsilon_{t-1}-\cdots-\theta_q \varepsilon_{t-q}
- 中心化后
  $x_t=\phi_1x_{t-1}+\cdots+\phi_p x_{t-p}+\varepsilon_t-\theta_1\varepsilon_{t-1}-\cdots-\theta_q \varepsilon_{t-q}$
- 延迟算子
  $\Phi(B) x_t=\Theta(B) \varepsilon_t$
平稳性与可逆性
- 平稳性: 等价于判断AR(p)的平稳性
- 可逆性: 等价于判断MA(q)的可逆性
- 平稳ARMA(p,q)等效于MA(∞)，可逆ARMA等效于AR(∞)
  $x_t=\frac{\Theta(B)}{\Phi(B)} \varepsilon_t\quad\quad\varepsilon_t=\frac{\Phi(B)}{\Theta(B)}x_t$
- ARMA(p,q)的传递形式
  $\begin{align} &x_t=\frac{\Theta(B)}{\Phi(B)} \varepsilon_t=\varepsilon_t+\psi_1\varepsilon_{t-1}+\psi_2\varepsilon_{t-2}+\cdots \\ &\psi_0=1, \quad \psi_j=\sum_{k=1}^j \phi_k^{\prime} \psi_{j-k}-\theta^\prime_j, \quad \phi_k^{\prime}=\begin{cases}\phi_k, & k \leq p \\0, & k>p \end{cases},\quad\theta_k^{\prime}=\begin{cases}\theta_j, & j \leq q \\0, & j>q \end{cases} \end{align}$
统计性质
- 均值
  $\mu=\frac{\phi_0}{1-\phi_1-\cdots-\phi_p}=\frac{\phi_0}{\Phi(1)}$
- 方差、自协方差、自相关系数ACF: 转换为MA(∞)后计算
- 自相关系数ACF与偏自相关系数PACF都是拖尾
预测
- 预测值
  $\begin{align} &x_t=(1-\Phi(B)) x_t+\Theta(B) \varepsilon_t \\ &\hat{x}_{t+l}=(1-\Phi(B)) \hat{x}_{t+l}+\Theta(B) \hat{\varepsilon}_{t+l} \end{align}$
  其中
  $\begin{cases} \hat{\varepsilon}_{t+k}={\varepsilon}_{t+k}, \hat{x}_{t+k}={x}_{t+k}&k\le 0 \\ \hat{\varepsilon}_{t+k}=0&k\gt 0 \end{cases}$
- 预测方差
  $\begin{align} & x_{t+l}=\frac{\Theta(B)}{\Phi(B)}\varepsilon_t= {\color{Red} \varepsilon_{t+l}+\psi_1\varepsilon_{t+l-1}+\cdots+\psi_{l-1}\varepsilon_{t+1}}+{\color{Blue} \psi_{l}\varepsilon_{t}+\cdots} \\ &\mathrm{Var}(x_{t+l})=(1+\psi_1^2+\cdots+\psi_{l-1}^2)\sigma_\varepsilon^2 \end{align}$
- 置信区间
  $\hat{x}_{t+l}\pm z_{\frac{\alpha}{2}}\sqrt{\mathrm{Var}(x_{t+l})}$
确定阶数
- 样本自相关系数和样本偏自相关系数的渐近正态性，从而可以利用2倍标准差范围来辅助判断
- 若有超过5%的系数落入2倍标准差范围之外，则为拖尾。否则为d阶截尾，d为明显超过2倍标准差范围的系数
模型评判
- AIC
- BIC
- SC

非平稳时间序列分析

单整序列

单整
- 如果一个非平稳序列可以通过差分运算变成一个平稳序列, 那么我们就称它为一个单整序列
- 列至少通过d次差分才能变成一个平稳序列, 那么就称它为d阶单整序列。平稳序列可以视为0阶单整序列
差分
- 差分运算
  $\nabla x_t=x_t-x_{t-1}$
- 差分与延迟算子
  $\nabla=1-B$
- 一般情形
  $\begin{align} &\nabla^p=(1-B)^p \\ &\nabla_k=\left(1-B^k\right) \end{align}$
运用
- 序列蕴含着显著的线性趋势, 一阶差分就可以实现趋势平稳
- 序列蕴含着曲线趋势, 通常低阶(二阶或三阶)差分就可以提取出曲线趋势的影响
- 对于蕴含着固定周期的序列进行步长为周期长度的差分运算，通常可以较好地提取周期信息

ARIMA

ARIMA(p,d,q)模型的定义
\Phi(B)\nabla^d x_t=\Theta(B) \varepsilon_t
- 默认已中心化且平稳可逆
性质
- 广义自回归系数多项式
  $\begin{align} &\varphi(B)=\Phi(B)\nabla^d=\Phi(B)(1-B)^d \\ &\varphi(B) x_t=\Theta(B) \varepsilon_t \end{align}$
  $\varphi(B)$ 有 $d$ 个根落在单位圆上、 $p$ 个根落在单位圆内
- 广义自相关函数
  $x_t=\frac{\Theta(B)}{\varphi(B)} \varepsilon_t=\Psi(B) \varepsilon_t$
  即满足 $\Phi(B)(1-B)^d\Psi(B)=\Theta(B)$
- 当 $d\ne 0$ 时，ARIMA模型不具有平稳性、也不具有方差齐性
预测
- 预测值
  $\begin{align} &x_t=(1-\varphi(B)) x_t+\Theta(B) \varepsilon_t \\ &\hat{x}_{t+l}=(1-\varphi(B)) \hat{x}_{t+l}+\Theta(B) \hat{\varepsilon}_{t+l} \end{align}$
  其中
  $\begin{cases} \hat{\varepsilon}_{t+k}={\varepsilon}_{t+k}, \hat{x}_{t+k}={x}_{t+k}&k\le 0 \\ \hat{\varepsilon}_{t+k}=0&k\gt 0 \end{cases}$
- 预测方差
  $\begin{align} & x_{t+l}=\Psi(B) \varepsilon_{t+l}= {\color{Red} \varepsilon_{t+l}+\psi_1\varepsilon_{t+l-1}+\cdots+\psi_{l-1}\varepsilon_{t+1}}+{\color{Blue} \psi_{l}\varepsilon_{t}+\cdots} \\ &\mathrm{Var}(x_{t+l})=(1+\psi_1^2+\cdots+\psi_{l-1}^2)\sigma_\varepsilon^2 \end{align}$
- 置信区间
  $\hat{x}_{t+l}\pm z_{\frac{\alpha}{2}}\sqrt{\mathrm{Var}(x_{t+l})}$

季节模型

简单季节模型
$\Phi(B)\nabla_D\nabla^d x_t=\Theta(B)\varepsilon_t$
乘积季节模型
$\Phi(B)\Phi_S\left(B^S\right)\nabla_D\nabla^d x_t=\Theta(B)\Theta_S\left(B^S\right)\varepsilon_t$