概统基础
随机向量运算
- 约定
- 随机向量:\boldsymbol x,\boldsymbol y,\boldsymbol z,\cdots
- 随机矩阵:\boldsymbol X,\boldsymbol Y,\boldsymbol Z,\cdots
- 常数向量:\boldsymbol a,\boldsymbol b,\boldsymbol c,\cdots
- 常数矩阵:\boldsymbol A,\boldsymbol B,\boldsymbol C,\cdots
- 随机向量
- 设随机向量\boldsymbol x=(x_1,\cdots,x_p)^\top,其元素x_i都是随机变量
- 期望向量
\mathrm{E}(\boldsymbol{x})=\left(\begin{array}{c}\mathrm{E}\left(x_1\right) \\ \mathrm{E}\left(x_2\right) \\ \vdots \\ \mathrm{E}\left(x_p\right)\end{array}\right)
记\boldsymbol{\mu}=\mathrm{E}(\boldsymbol{x}),\boldsymbol{\mu}为常数向量
- 协方差矩阵
\begin{align}
&\mathrm{Cov}(\boldsymbol x)=\mathrm{E}[(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^\top]=\mathrm{E}(\boldsymbol{x}\boldsymbol{x}^\top)-\boldsymbol{\mu}\boldsymbol{\mu}^\top
\\
&\mathrm{Cov}(\boldsymbol x,\boldsymbol y)=\mathrm{E}[(\boldsymbol{x}-\boldsymbol{\mu_x})(\boldsymbol{y}-\boldsymbol{\mu_y})^\top]=\mathrm{E}(\boldsymbol{x}\boldsymbol{y}^\top)-\boldsymbol{\mu_x}\boldsymbol{\mu_y}^\top
\end{align}
记\boldsymbol{\Sigma}=\mathrm{Cov}(\boldsymbol x),\boldsymbol{\Sigma}为常数矩阵
\boldsymbol{\Sigma}为实对称矩阵,可以使用谱分解定理、特征向量间正交
- 随机矩阵
- 设随机矩阵\boldsymbol X=(X_{ij})_{n\times p},其元素X_{ij}都是随机变量
- 期望矩阵
\mathrm {E}(\boldsymbol X)=(\mathrm E(X_{i,j}))_{n\times p}
结果为常数矩阵
- 由于随机向量可以视为一维的随机矩阵,因此接下来的性质如果对随机矩阵成立,则对随机向量也成立
- 线性变换
- 期望
\begin{align}
& \mathrm{E}(\boldsymbol{A X}+\boldsymbol{B})=\boldsymbol{A} \mathrm{E}(\boldsymbol{X})+\boldsymbol{B}
\\
& \mathrm{E}(\boldsymbol{A X B})=\boldsymbol{A} \mathrm{E}(\boldsymbol{X}) \boldsymbol{B}
\\
& \mathrm{E}(\boldsymbol{X}+\boldsymbol{Y})=\mathrm{E}(\boldsymbol{X})+\mathrm{E}(\boldsymbol{Y})
\end{align}
- 协方差矩阵
\begin{align}
&\mathrm{Cov}(\boldsymbol{A x}+\boldsymbol{b})=\boldsymbol{A}\mathrm{Cov}(\boldsymbol{x})\boldsymbol{A}^\top
\\
&\mathrm{Cov}(\boldsymbol{A x},\boldsymbol{Bx})=\boldsymbol{A}\mathrm{Cov}(\boldsymbol{x},\boldsymbol{y})\boldsymbol{B}^\top
\end{align}
- 二次型
- 期望
\mathrm{E}\left(\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}\right)=\mathrm{tr}(\boldsymbol{A} \boldsymbol{\Sigma})+\boldsymbol{\mu}^{\top} \boldsymbol{A} \boldsymbol{\mu}
- 特例
若\boldsymbol{A}=\boldsymbol{I},则\mathrm{E}\left(\boldsymbol{x}^{\top} \boldsymbol{x}\right)=\mathrm{tr}( \boldsymbol{\Sigma})+\boldsymbol{\mu}^{\top} \boldsymbol{\mu}
若\boldsymbol{\mu}=\boldsymbol0,则\mathrm{E}\left(\boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x}\right)=\mathrm{tr}(\boldsymbol{A} \boldsymbol{\Sigma})
特别提醒:\mathrm{E}\left(\boldsymbol{x} \boldsymbol{x}^{\top}\right)=\boldsymbol{\Sigma}+\boldsymbol{\mu}\boldsymbol{\mu}^\top
- 样本估计
- 设\boldsymbol{x}_1,\cdots,\boldsymbol{x}_n是来源于随机向量\boldsymbol{x}的独立样本
- 样本均值估计
\begin{align}
&\hat{\boldsymbol{\mu}}:\quad \bar{\boldsymbol{x}}=\frac{1}{n}\sum_{i=1}^{n} \boldsymbol{x}_i
\\
&\mathrm{E}(\bar{\boldsymbol{x}})=\boldsymbol{\mu},\quad \mathrm{Cov}(\bar{\boldsymbol{x}})=\frac{1}{n}\boldsymbol{\Sigma}
\end{align}
- 样本协方差的估计
\begin{align}
&\hat{\boldsymbol{\Sigma}}:\quad {\boldsymbol{S}}=\frac{1}{n-1}\sum_{i=1}^n(\boldsymbol x_i-\bar{\boldsymbol x})(\boldsymbol x_i-\bar{\boldsymbol x})^\top=\frac{1}{n-1}\left(\sum_{i=1}^n \boldsymbol x_i\boldsymbol x_i^\top -n \bar{\boldsymbol x}\bar{\boldsymbol x}^\top\right)
\\
&\mathrm{E}({\boldsymbol{S}})=\boldsymbol{\Sigma}
\end{align}
- 迹的公式
- 循环置换:\mathrm{tr}(\boldsymbol{AB})=\mathrm{tr}(\boldsymbol{BA})
- 线性性:\mathrm{E}[\mathrm{tr}(\boldsymbol{AX})]=\mathrm{tr}[\boldsymbol A\mathrm{E}(\boldsymbol{X})],\mathrm{E}[\mathrm{tr}(\boldsymbol{XA})]=\mathrm{tr}[\mathrm{E}(\boldsymbol{X})\boldsymbol A]
多元正态分布
- 定义
\boldsymbol X=(X_1,\cdots,X_n)^\top\sim\mathrm{N}(\boldsymbol \mu,\boldsymbol \Sigma)
- 线性变换
- 多元正态分布的线性变换一定服从多元正态分布(包括一元)
- \boldsymbol{Y}=\boldsymbol{A}\boldsymbol{X}\sim\mathrm{N}( \boldsymbol{A}\boldsymbol\mu,\boldsymbol{A}\boldsymbol \Sigma\boldsymbol{A}^\top)
- 条件分布
- 假设多元正态分布
\binom{\boldsymbol{U}}{\boldsymbol{V}} \sim \mathrm{N}\left(\binom{\boldsymbol{\mu}_U}{\boldsymbol{\mu}_V},\left(\begin{array}{ll}\boldsymbol{\Sigma}_{U U} & \boldsymbol{\Sigma}_{U V} \\ \boldsymbol{\Sigma}_{V U} & \boldsymbol{\Sigma}_{V V}\end{array}\right)\right)
- 则条件分布
\boldsymbol U\mid\boldsymbol V=\boldsymbol v\sim\mathrm{N}\left(\boldsymbol{\mu}_U+\boldsymbol{\Sigma}_{UV}\boldsymbol{\Sigma}_{VV}^{-1}(\boldsymbol v-\boldsymbol{\mu}_V) ,\boldsymbol{\Sigma}_{UU}-\boldsymbol{\Sigma}_{UV}\boldsymbol{\Sigma}_{VV}^{-1}\boldsymbol{\Sigma}_{VU}\right)
回归分析
方差分析
- 总偏差平方和: SST=\sum(y_i-\bar y)^2
- 回归平方和: SSR=\sum(\hat y_i-\bar y)^2
- 残差平方和: SSE=\sum(y_i-\hat y_i)^2
- 平方和分解式: SST=SSR+SSE
一元线性回归
- 定义
y_i=\beta_0+\beta_1x_i+\varepsilon_i\quad\quad \varepsilon_i\sim \mathrm N(0,\sigma^2)\ \mathrm{i.i.d.}
- 关键参数
- 参数的点估计
\begin{align}
&\beta_1:\quad\hat\beta_1=\frac{\sigma_{xy}}{\sigma_x^2}=\frac{\overline{xy}-\bar x\bar y}{\overline{x^2}-{\bar x}^2}
\\
&\beta_0:\quad\hat\beta_0=\bar{y}-\hat\beta_1\bar x
\\
&\sigma^2:\quad s^2=\frac{SSE}{n-2}
\end{align}
- 参数点估计的抽样分布
\begin{align}
&\hat{\beta}_1\sim N\left(\beta_1, \frac{1}{\sigma_x^2}\frac{\sigma^2}{n}\right)
\\
&\hat{\beta}_0\sim N\left(\beta_0,\left[1+\frac{{\bar x}^2}{\sigma_x^2}\right]\frac{\sigma^2}{n} \right)
\\
& s^2\sim\frac{\sigma^2}{n-2}\chi^2(n-2)
\end{align}
- 参数的区间估计
\begin{align}
&\beta_1:\quad \hat{\beta}_1\pm t_{\alpha /2}(n-2) \sqrt{ \frac{1}{\sigma_x^2}\frac{s^2}{n}}
\\
&\beta_0:\quad \hat{\beta}_0\pm t_{\alpha /2}(n-2) \sqrt{\left[1+\frac{{\bar x}^2}{\sigma_x^2}\right]\frac{s^2}{n}}
\\
&\sigma^2:\quad\left(\frac{(n-2) s^2}{\chi_{\alpha /2}^2(n-2)}, \frac{(n-2) s^2}{\chi_{1-\alpha /2}^2( n-2)}\right)
\end{align}
- 估计: 给定x_i时,寻求\mathrm E(y_i)=\beta_0+\beta_1x_i
- 点估计
\mathrm E(y_i):\quad\widehat{\mathrm E(y_i)}=\hat\beta_0+\hat\beta_1 x_i
- 区间估计
\mathrm E(y_i):\quad\widehat{\mathrm E(y_i)}\pm t_{\alpha/2}(n-2)\sqrt{\left[1+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{s^2}{n}}
- 估计误差的抽样分布
\delta_i=\widehat{\mathrm E(y_i)}-\mathrm E(y_i)\sim\mathrm N\left(0,\left[1+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{\sigma^2}{n}\right)
- 预测: 给定x_i时,寻求y_i=\beta_0+\beta_1x_i+\varepsilon_i
- 点估计
y_i:\quad\hat y_i=\hat\beta_0+\hat\beta_1 x_i
- 区间估计
y_i:\quad\hat y_i\pm t_{\alpha/2}(n-2)\sqrt{\left[1+n+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{s^2}{n}}
- 预测误差的抽样分布
e_i=\hat y_i-y_i\sim\mathrm N\left(0,\left[1+n+\frac{\left(x_i-\bar{x}\right)^2}{\sigma_x^2}\right] \frac{\sigma^2}{n}\right)
- 显著性检验
- F检验: H_0:\beta_1=0,单侧检验,过大拒绝
F=\frac{SSR}{SSE/(n-2)}\sim F(1,n-2)
- t检验: H_0:\beta_1=0,双侧检验
t=\frac{\hat\beta_1\sqrt{n\sigma_x^2}}{s}=\frac{\hat\beta_1\sqrt{n\sigma_x^2}}{\sqrt{SSE/(n-2)}}\sim t(n-2)
- 相关系数检验: H_0:\rho=0,单侧检验,过小拒绝
r=\left|\frac{\sigma_{xy}}{\sigma_x\sigma_y}\right|\sim \sqrt\frac{F(1,n-2)}{F(1,n-2)+(n-2)}
或者t=r\sqrt\frac{n-2}{1-r^2}\sim t(n-2),此时为双侧检验
多元线性回归
- 定义
y_i=\beta_0+\beta_1 x_{i1}+\cdots+\beta_p x_{ip}+\varepsilon_i\quad\quad \varepsilon_i\sim\mathrm N(0,\sigma^2)\ \mathrm{i.i.d.}
- 矩阵形式
\begin{align}
&\boldsymbol{y}=\left(\begin{array}{c}y_1\\ \vdots \\ y_n\end{array}\right), \quad \boldsymbol{X}=\left(\begin{array}{cccc}1& x_{11} & \cdots & x_{1p} \\ \vdots & \vdots & \ddots & \vdots \\1& x_{n1} & \cdots & x_{n p}\end{array}\right), \quad \boldsymbol{\beta}=\left(\begin{array}{c}\beta_0\\ \beta_1\\ \vdots \\ \beta_p\end{array}\right), \quad \boldsymbol{\varepsilon}=\left(\begin{array}{c}\varepsilon_1\\ \vdots \\ \varepsilon_n\end{array}\right)
\\
&\boldsymbol{y}=\boldsymbol{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon}, \quad \boldsymbol{\varepsilon} \sim \mathrm{N}_n\left(\boldsymbol{0}, \sigma^2\boldsymbol{I}_n\right)
\end{align}
- 帽子矩阵
\boldsymbol{H}=\boldsymbol{X}\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top}
- \boldsymbol{y}的拟合值
\hat{\boldsymbol{y}}=\boldsymbol{X} \hat{\boldsymbol{\beta}}=\boldsymbol{H} \boldsymbol{y}=\boldsymbol{X}\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y}
- 残差向量
\boldsymbol{e}=\boldsymbol{y}-\hat{\boldsymbol{y}}=\left(\boldsymbol{I}_n-\boldsymbol{H}\right) \boldsymbol{y}
此时有SSE=\boldsymbol{e}^\top\boldsymbol{e}
- 关键参数
- 参数的点估计
\begin{align}
&\boldsymbol{\beta}:\quad \hat{\boldsymbol{\beta}}=\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y}
\\
&\sigma^2:\quad s^2=\frac{SSE}{n-p-1}
\end{align}
- 参数点估计的抽样分布
\begin{align}
&\hat{\boldsymbol{\beta}}\sim\mathrm N_{p+1}\left(\boldsymbol{\beta},\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1}\sigma^2\right)
\\
&s^2\sim\frac{\sigma^2}{n-p-1}\chi^2(n-p-1)
\end{align}
- 回归模型的评估
- 判定系数
R^2=\frac{\mathrm{SSR}}{\mathrm{SST}}, \quad R_{\mathrm{adj}}^2=1-\frac{(n-1)\left(1-R^2\right)}{n-p-1}=1-\frac{(n-1) \mathrm{SSE}}{(n-p-1) \mathrm{SST}}
- F检验: H_0:\beta_1=\cdots=\beta_p=0,单侧检验,过大拒绝
F=\frac{{SSR} / p}{{SSE} /(n-p-1)}\sim F(p,n-p-1)
- t检验: H_0:\beta_i=0,双侧检验
t=\frac{\hat\beta_1}{s\sqrt{b_{ii}}}=\frac{\hat\beta_1}{\sqrt{b_{ii}SSE/(n-p-1)}}\sim t(n-p-1)
其中b_{ii}为矩阵\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1}的第i个主对角元
- 回归方法
- 最小二乘法
\hat{\boldsymbol{\beta}}=\argmin\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2=\left(\boldsymbol{X}^{\top} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y}
无偏估计,易受多重共线性、过拟合、异常值的影响,无法用于高维数据(p\gt n)
- 岭回归
\hat{\boldsymbol{\beta}}(\lambda)=\argmin\left\{\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2^2+\lambda\|\boldsymbol{\beta}\|_2^2\right\}=\left(\boldsymbol{X}^{\top} \boldsymbol{X}+\lambda\boldsymbol{I}\right)^{-1} \boldsymbol{X}^{\top} \boldsymbol{y}
有偏估计,能够应对最小二乘法面临的问题
- LASSO回归
\hat{\boldsymbol{\beta}}(\lambda)=\argmin\left\{\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2^2+\lambda\|\boldsymbol{\beta}\|_1\right\}
有偏估计,没有解析解,特别适合高维数据,能够将不重要自变量的系数变为0,实现压缩维度
- Elastic Net回归
\hat{\boldsymbol{\beta}}(\lambda,\alpha)=\argmin\left\{\|\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\beta}\|_2^2+\lambda\left[\alpha\|\boldsymbol{\beta}\|_1+(1-\alpha)\|\boldsymbol{\beta}\|_2^2\right]\right\}
- 注意1范数都没有平方,PPT有误
Logistic回归
- 定义
\ln\frac{p_i}{1-p_i}=\beta_0+\beta_1x_{1i}+\cdots+\beta_kx_{ki}
- 拟合值
\hat{p}_i=\frac{1}{1+e^{-(\hat\beta_0+\hat\beta_1x_{1i}+\cdots+\hat\beta_kx_{ki})}}
- 分类: 从\hat{p}_i确定\hat{y}_i
- 阈值d
\begin{cases}
\hat{y}_i=1&\hat{p}_i\ge d
\\
\hat{y}_i=0&\hat{p}_i\lt d
\end{cases}
- 阈值的选择
朴素选择: d等于0.5
先验选择: d等于样本中y_i=1的比例
最优阈值: d的值使得犯第一类错误最小
- 参数的估计
- 使用极大似然估计,记
\begin{align}
&\boldsymbol{\beta}=(\beta_0,\beta_1,\cdots,\beta_k)^\top
\\
&\boldsymbol{x}_i=(x_{1i},\cdots,x_{ki})^\top
\\
&\pi(\boldsymbol{x}_{i})=\frac{1}{1+e^{-\boldsymbol{\beta}^\top\boldsymbol{x_i}}}
\end{align}
- 似然函数
L(\boldsymbol{\beta})=\prod_{i=1}^n\left[\pi\left(\boldsymbol{x}_i\right)\right]^{y_i}\left[1-\pi\left(\boldsymbol{x}_i\right)\right]^{1-y_i}
- 对数似然函数
\begin{align}
\ln L(\boldsymbol{\beta}) &=\sum_{i=1}^n\left[y_i \ln \pi\left(\boldsymbol{x}_i\right)+\left(1-y_i\right) \ln \left(1-\pi\left(\boldsymbol{x}_i\right)\right)\right]
\\
&=\sum_{i=1}^n \ln \left(1-\pi\left(\boldsymbol{x}_i\right)\right)+\sum_{i=1}^n y_i \ln \frac{\pi\left(\boldsymbol{x}_i\right)}{1-\pi\left(\boldsymbol{x}_i\right)}
\end{align}
- 根据对数似然函数求出\hat{\boldsymbol{\beta}},通常无解析解
主成分和因子分析
主成分分析
- 定义
- 对于p元随机向量,其均值和协方差阵分别为\boldsymbol\mu, \boldsymbol\Sigma
\boldsymbol X=(X_1,\cdots,X_p)^\top
- 考虑关于\boldsymbol X的p个线性组合
\begin{aligned}
{Y}_1= & \boldsymbol{a}_1^{\top} \boldsymbol{X}=a_{11} X_1+a_{12} X_2+\cdots+a_{1p} X_p,
\\
{Y}_2= & \boldsymbol{a}_2^{\top} \boldsymbol{X}=a_{21} X_1+a_{22} X_2+\cdots+a_{2p} X_p,
\\
& \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots
\\
{Y}_p= & \boldsymbol{a}_p^{\top} \boldsymbol{X}=a_{p1} X_1+a_{p2} X_2+\cdots+a_{p p} X_p .\end{aligned}
- 要求\boldsymbol{a}_i满足
\begin{align}
&\boldsymbol{a}_i^{\top}\boldsymbol{a}_i=1\quad\quad\mathrm{Cov}({Y}_i,{Y}_j)=\boldsymbol{a}_i^{\top}\boldsymbol{\Sigma}\boldsymbol{a}_j=0
\\
&\mathrm{Var}({Y}_i)=\boldsymbol{a}_i^{\top}\boldsymbol{\Sigma}\boldsymbol{a}_i\lt\mathrm{Var}({Y}_j)=\boldsymbol{a}_j^{\top}\boldsymbol{\Sigma}\boldsymbol{a}_j\quad(1\le i\lt j\le p)
\end{align}
- 则称{Y}_i为第i主成分
- 主成分的求法
- 定义\boldsymbol A=(\boldsymbol{a}_1,\cdots,\boldsymbol{a}_p),\boldsymbol Y=(Y_1,\cdots,Y_p)^\top,则
\boldsymbol{Y}=\left(\begin{array}{c}Y_1\\ Y_2\\ \vdots \\ Y_p\end{array}\right)=\left(\begin{array}{c}\boldsymbol{a}_1^{\top} \boldsymbol{X} \\ \boldsymbol{a}_2^{\top} \boldsymbol{X} \\ \vdots \\ \boldsymbol{a}_p^{\top} \boldsymbol{X}\end{array}\right)=\boldsymbol{A}^{\top} \boldsymbol{X}
由于\boldsymbol A^\top\boldsymbol A=\boldsymbol I,因此有\boldsymbol{X}=\boldsymbol{A}\boldsymbol{Y}
- 从协方差阵\boldsymbol{\Sigma}求主成分
协方差矩阵\boldsymbol{\Sigma}一定是实对称矩阵,特征向量间正交。因此选择\boldsymbol{\Sigma}的归一化后特征向量作为\boldsymbol{\alpha}_i,有
\begin{align}
&\mathrm{Var}({Y}_i)=\boldsymbol{\alpha}_i^\top\boldsymbol{\Sigma}\boldsymbol{\alpha}_i=\boldsymbol{\alpha}_i^\top\lambda_i\boldsymbol{\alpha}_i=\lambda_i
\\
&\mathrm{Cov}({Y}_i,{Y}_j)=\boldsymbol{\alpha}_i^\top\boldsymbol{\Sigma}\boldsymbol{\alpha}_j=\boldsymbol{\alpha}_i^\top\lambda_j\boldsymbol{\alpha}_j=0
\\
&\mathrm{Cov}(\boldsymbol Y)=\mathrm{diag}(\lambda_1,\cdots,\lambda_p)
\\
&\sum_{i=1}^p\mathrm{Var}(X_i)=\mathrm{tr}(\boldsymbol{\Sigma})=\sum_{i=1}^p\lambda_i=\sum_{i=1}^p\mathrm{Var}(Y_i)
\end{align}
根据\mathrm{Var}(\boldsymbol{Y}_i)=\lambda_i计算第i主成分的贡献率
\frac{\lambda_i}{\lambda_1+\cdots+\lambda_p}
- 从相关阵\boldsymbol{R}求主成分
协方差大小受变量的量纲大小影响,改为使用相关系数矩阵可以解决这个问题。对所有X_i归一化
X_i^\ast=\frac{X_i-\mu_i}{\sqrt{\mathrm{Var}(X_i)}}
对于\boldsymbol X^\ast,其相关阵\boldsymbol{R}与协方差阵\boldsymbol{\Sigma}相同。也可以从协方差阵\boldsymbol{\Sigma}直接计算相关阵\boldsymbol{R}
\boldsymbol R=\boldsymbol D\boldsymbol \Sigma\boldsymbol D\quad\quad \boldsymbol D=\mathrm{diag}\left(\frac{1}{\sqrt{\mathrm{Var}(X_1)}},\cdots,\frac{1}{\sqrt{\mathrm{Var}(X_p)}}\right)
相关阵\boldsymbol{R}的主对角线都为1,因此第i主成分的贡献率为
\frac{\lambda_i^\ast}{\lambda_1^\ast+\cdots+\lambda_p^\ast}=\frac{{\lambda_i^\ast}}{p}
最后需要将主成分中的X_i^\ast还原为X_i
Y_i^\ast=a_{i1}^\ast X_1^\ast+\cdots+a_{ip}^\ast X_p^\ast=a_{i1}^\ast \frac{X_1-\mu_1}{\sqrt{\mathrm{Var}(X_1)}}+\cdots+a_{ip}^\ast \frac{X_p-\mu_p}{\sqrt{\mathrm{Var}(X_p)}}
- 因子载荷
- 每个主成分Y_i和变量X_j的相关系数
\mathrm{Corr}(Y_i,X_j)=\frac{\alpha_{ij}\sqrt{\lambda_i}}{\sqrt{\mathrm{Var}(X_j)}}
- 为了和前文一致,系数向量\boldsymbol{\alpha}_i=(\alpha_{i1},\cdots,\alpha_{ip})^\top,与PPT不同
- \boldsymbol\mu, \boldsymbol\Sigma的估计
\begin{align}
&\mu_i:\quad \bar{x}_i=\frac{1}{n}\sum_{\alpha=1}^n x_{i\alpha}
\\
&\mathrm{Var}(X_i):\quad s_{ii}=\frac{1}{n-1}\sum_{\alpha=1}^n\left( x_{i\alpha}-\bar{x}_i\right)^2
\\
&\mathrm{Cov}(X_i,X_j):\quad s_{ij}=\frac{1}{n-1}\sum_{\alpha=1}^n\left( x_{i\alpha}-\bar{x}_i\right)\left( x_{j\alpha}-\bar{x}_j\right)
\end{align}
- 相关性判定
- KMO检验: 检验统计量小于0.5不适合做主成分分析,大于0.7主成分分析效果比较好
- Bartlett球形检验: p值接近0适合做主成分分析
因子分析
- 定义
- 对于p元随机向量,其均值和协方差阵分别为\boldsymbol\mu, \boldsymbol\Sigma
\boldsymbol X=(X_1,\cdots,X_p)^\top
- 考虑m维向量(m\lt p)
\boldsymbol F=(F_1,\cdots,F_m)^\top
要求\mathrm{E}(\boldsymbol F)=\boldsymbol 0,\mathrm{Cov}(\boldsymbol F)=\boldsymbol{I}_m
- 和p维残差向量
\boldsymbol \varepsilon=(\varepsilon_1,\cdots,\varepsilon_p)^\top
要求\mathrm{E}(\boldsymbol\varepsilon)=\boldsymbol 0,\mathrm{Cov}(\boldsymbol\varepsilon)=\mathrm{diag}(\sigma_1^2,\cdots,\sigma_p^2),\mathrm{Cov}(\boldsymbol F,\boldsymbol \varepsilon)=\boldsymbol 0
将\mathrm{Cov}(\boldsymbol\varepsilon)记为\boldsymbol D
- 满足正交因子模型
\begin{align}
\boldsymbol X=&\boldsymbol\mu+\boldsymbol A\boldsymbol F+\boldsymbol\varepsilon
\\\\
X_1= & \mu_1+a_{11} F_1+a_{12} F_2+\cdots+a_{1m} F_m+\varepsilon_1, \\ X_2= & \mu_2+a_{21} F_1+a_{22} F_2+\cdots+a_{2m} F_m+\varepsilon_2, \\ & \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \\ X_p= & \mu_p+a_{p1} F_1+a_{p2} F_2+\cdots+a_{p m} F_m+\varepsilon_p
\end{align}
- \boldsymbol F称为公共因子,\boldsymbol\varepsilon称为特殊因子,\boldsymbol A称为因子载荷矩阵
- 与主成分分析相比,因子分析减少了变量维度,将损失的精度用残差解释
- 性质
- \boldsymbol\Sigma=\boldsymbol A\boldsymbol{A}^\top+\boldsymbol D,即
\begin{align}
&\mathrm{Var}\left(X_i\right) =a_{i1}^2+a_{i2}^2+\cdots+a_{i m}^2+\sigma_i^2,
\\
&\mathrm{Cov}\left(X_i, X_j\right) =a_{i1} a_{j1}+a_{i2} a_{j2}+\cdots+a_{i m} a_{j m}
\end{align}
- \mathrm{Cov}(\boldsymbol X,\boldsymbol F)=\boldsymbol A,即
\mathrm{Cov}\left(X_i, F_j\right) =a_{ij}
矩阵\boldsymbol A的元素刻画了X_i,F_j的相关性,将a_{ij}称为X_i在F_j的因子载荷
- 将这两条性质合称为正交因子模型的协方差结构
- 共性方差
- 对于变量X_i,将变量方差\mathrm{Var}\left(X_i\right)分解为共性方差h_i^2和剩余方差\sigma_i^2
\mathrm{Var}\left(X_i\right) =a_{i1}^2+a_{i2}^2+\cdots+a_{i m}^2+\sigma_i^2=h_{i}^2+\sigma_i^2
- 共性方差反应了X_i对\boldsymbol F的总依赖程度
- 因子贡献
- 对于因子F_i,其贡献为
g_i^2=a_{1i}^2+\cdots+a_{pi}^2
- 因子贡献衡量了因子F_i对\boldsymbol X的总影响力
- 因子的不唯一性
- 若(\boldsymbol A,\boldsymbol F,\boldsymbol \varepsilon)是符合条件的因子模型,则对于任意正交矩阵\boldsymbol \Lambda,(\boldsymbol A\boldsymbol \Lambda,\boldsymbol {\Lambda}^\top\boldsymbol F,\boldsymbol \varepsilon)也是符合条件的因子模型
\begin{align}
&\mathrm{E}(\boldsymbol {\Lambda}^\top\boldsymbol F)=\boldsymbol {\Lambda}^\top\mathrm{E}(\boldsymbol F)=\boldsymbol 0
\\
&\mathrm{Cov}(\boldsymbol {\Lambda}^\top\boldsymbol F)=\boldsymbol {\Lambda}^\top\mathrm{Cov}(\boldsymbol F)\boldsymbol {\Lambda}=\boldsymbol I_m
\\
&\boldsymbol A\boldsymbol\Lambda(\boldsymbol A\boldsymbol\Lambda)^\top+\boldsymbol \varepsilon=\boldsymbol A\boldsymbol A^\top+\boldsymbol \varepsilon=\boldsymbol \Sigma
\end{align}
将从\boldsymbol A得到新的因子载荷矩阵\boldsymbol A\boldsymbol\Lambda称为因子旋转
- 因子分析时,首先计算出一个符合条件的因子载荷矩阵,在对其旋转,得到满足要求的最终因子载荷矩阵
- 因子载荷矩阵的估计
- 主成分法
选择相关阵\boldsymbol R的前m大的特征值\lambda_i以及对应的特征向量\boldsymbol v_i,根据谱分解定理有
\boldsymbol R\approx\left(\sqrt{\lambda_1} \boldsymbol v_1, \cdots, \sqrt{\lambda_m} \boldsymbol v_m\right)\left(\begin{array}{c}\sqrt{\lambda_1} \boldsymbol v_1^{\top} \\ \vdots \\ \sqrt{\lambda_m} \boldsymbol v_m^{\top}\end{array}\right)+\boldsymbol D=\boldsymbol A\boldsymbol A^\top+\boldsymbol D
由于舍弃了部分特征值特征向量,因此\boldsymbol A\boldsymbol A^\top与\boldsymbol R不相同
估计\boldsymbol D时,由于\boldsymbol D为对角阵,选择\boldsymbol D使得\boldsymbol A\boldsymbol A^\top+\boldsymbol D与\boldsymbol R主对角线元素相同
最终\boldsymbol A\boldsymbol A^\top+\boldsymbol D与\boldsymbol R主对角线元素相同,其他元素略有差异
- 此外还有主因子法、极大似然估计法
- 因子旋转矩阵的估计
- 最大方差法:使得总相对方差最大
- 此外还有最大四次方值法、最大平衡值法、直接Oblimin法、Promax法
分析方式对比
- 主成分分析
- 先分解为p个主成分
- 根据贡献率筛选出最重要的m个主成分
- 对这m个主成分的意义进行解释
- 因子分析
- 先确定要压缩为m个因子
- 估计出这m个因子的表达式
- 对因子进行旋转,直到满足要求
- 对这m个旋转后因子的意义进行解释
时间序列
时间序列分析简介
- 特征
- 长期趋势(trend): 长期内呈现出递增或递减的趋势
- 季节变动(season): 稳定周期内的重复波动
- 循环波动(circle): 非固定周期的反复循环波动
- 随机波动(immediate): 噪音,平稳序列
- 序列不止包含随机波动,那么它就是非平稳时间序列。 对这种时间序列的分析方法可以分为随机性分析和确定性分析
- 确定性分析
- 典型分解式: 将时间序列分解成趋势项、季节项、平稳随机噪声项
X_t=m_t+s_t+Y_t
- 差分法: 对数据反复差分,直到接近平稳过程
- 平滑法: 包括滑动平均法和指数平滑法,消除季节效应
- 随机性分析
- 使用过去值和随机扰动项预测未来值
- ARIMA、GARCH等模型
- 时间序列的描述
- 均值函数
\mu_t=\mathrm{E}(X_t)
- 方差函数
\sigma_t^2=\mathrm{Var}(X_t)
- 自协方差函数
\gamma(t,s)=\mathrm{E}[(X_t-\mu_t)(X_s-\mu_s)]
- 自相关函数ACF
\rho(t,s)=\frac{\gamma(t,s)}{\sigma_t\sigma_s}
- 平稳时间序列
- 严平稳: 随机向量和时间无关,仅和时间差有关
- 宽平稳: 期望值、方差有限且不随时间变化,自协方差只和时间差关
\begin{align}
&\mu_t=\mathrm{E}(X_t)\equiv\mu,\quad\sigma_t^2=\mathrm{Var}(X_t)\equiv\sigma^2=\gamma_0
\\
&\gamma(t,t+k)=\mathrm{E}[(X_t-\mu_t)(X_{t+k}-\mu_{t+k})]\equiv \gamma_k
\\
&\rho(t,t+k)=\frac{\gamma(t,t+k)}{\sigma_t\sigma_{t+k}}=\frac{\gamma_k}{\gamma_0}\equiv \rho_k
\end{align}
- 性质
\begin{align}
&\rho_0=1,\quad|\rho_k|\le1
\\
&\rho_{k}=\rho_{-k},\quad \gamma_k=\gamma_{-k}
\end{align}
- 白噪声、滑动平均、随机余弦波宽平稳;随机游走不平稳(方差时变)
\mathrm{Var}(X_t)=\mathrm{Var}(X_{t-1}+\varepsilon_t)=\cdots=\mathrm{Var}(X_{0}+\sum_{i=1}^t\varepsilon_i)=t\sigma^2
- 平稳时间序列的参数估计
- 设一个平稳时间序列的观测值序列为x_1,\cdots,x_n
- 均值
\mu:\quad\bar x=\frac{1}{n} \sum_{t=1}^n x_t
- 方差
\sigma^2:\quad\widehat{\sigma^2}=\frac{1}{n-1}\sum_{t=1}^n\left(x_t-\bar x\right)^2
- 协方差函数
\gamma_k:\quad\hat\gamma_k=\frac{1}{n-k}\sum_{t=1}^{n-k}\left(x_t-\bar x\right)\left(x_{t+k}-\bar x\right)
- 自相关系数
\rho_k:\quad\hat\rho_k=\frac{\hat\gamma_k}{\hat\gamma_0}
- 平稳性检验
- 图检验方法
时序图检验: 看起来在一定范围内波动
自相关图检验: 各阶自相关系数始终比较小
- 单位根检验
ADF检验: 适用于方差齐性场合
PP检验: 适用于异方差场合
- 纯随机性检验
- 纯随机性的定义
\forall k\ne0,\gamma_k=0
检验统计量: Q统计量、LB统计量
- 游程检验: 检验单样本变量值是否随机
平稳时间序列分析
AR模型
- AR(p)模型的定义
x_t=\phi_0+\phi_1x_{t-1}+\phi_2x_{t-2}+\cdots+\phi_p x_{t-p}+\varepsilon_t
- 中心化: 做如下变换后的AR模型能够消除常数项\phi_0
\mu=\frac{\phi_0}{1-\phi_1-\cdots-\phi_p}, \quad y_t=x_t-\mu
故我们一般只讨论中心化后的模型
- 延迟算子
x_t=\phi_1x_{t-1}+\phi_2x_{t-2}+\cdots+\phi_p x_{t-p}+\varepsilon_t
\\
\Downarrow
\\
x_t-\phi_1x_{t-1}-\phi_2x_{t-2}-\cdots-\phi_p x_{t-p}=\varepsilon_t
\\
\Downarrow
\\
x_t-B\phi_1x_{t}-B^2\phi_2x_{t}-\cdots-B^p\phi_p x_{t}=\varepsilon_t
\\
\Downarrow
\\
(1-B\phi_1-B^2\phi_2-\cdots-B^p\phi_p)x_t=\varepsilon_t
\\
\Downarrow
\\
\Phi(B)x_t=\varepsilon_t
- 平稳性
- 特征根判别: 特征方程\Phi(\lambda^{-1})=0的所有解\lambda_i都落在单位圆内
- 平稳域判别: \phi_i落入平稳域中。AR(1)与AR(2)的平稳域如下
\begin{align}
&\text{AR(1)}:\quad -1\lt\phi_1\lt1
\\
&\text{AR(2)}:\quad -1\lt\phi_2\lt1,\phi_2\pm\phi_1\lt1
\end{align}
- 同时通过两种判别则为平稳AR模型
- Green函数
- 平稳AR(p)等效于MA(∞)
\begin{align}
x_t&=\frac{\varepsilon_t}{\Phi(B)}
\\
&=\frac{\varepsilon_t}{1-B\phi_1-B^2\phi_2-\cdots-B^p\phi_p}
\\
&=(1+\psi_1B+\psi_2B^2+\cdots)\varepsilon_t
\\
&=\varepsilon_t+\psi_1\varepsilon_{t-1}+\psi_2\varepsilon_{t-2}+\cdots
\end{align}
- \psi_i称为Green函数,可以通过泰勒展开\frac{1}{\Phi(B)}或根据公式递推
\psi_0=1, \quad \psi_j=\sum_{k=1}^j \phi_k^{\prime} \psi_{j-k}, \quad \phi_k^{\prime}=\begin{cases}\phi_k, & k \leq p \\0, & k>p \end{cases}
- 特别的,对于AR(1)模型,\psi_i=\phi_1^i
x_t=\frac{\varepsilon_t}{1-B\phi_1}=(1+B\phi_1+B^2\phi_1^2+\cdots)\varepsilon_t=\varepsilon_t+\phi_1\varepsilon_{t-1}+\phi_1^2\varepsilon_{t-2}+\cdots
- 统计性质
- 均值
\mu=\frac{\phi_0}{1-\phi_1-\cdots-\phi_p}=\frac{\phi_0}{\Phi(1)}
- 方差
\sigma^2=\mathrm{Var}(\varepsilon_t+\psi_1\varepsilon_{t-1}+\psi_2\varepsilon_{t-2}+\cdots)=\sigma_{\epsilon}^2\sum_{i=0}^{\infty}\psi_i^2
对于AR(1)
\sigma^2=\frac{\sigma_{\epsilon}^2}{1-\phi_1^2}
对于AR(2)
\sigma^2=\frac{\left(1-\phi_2\right) \sigma_{\varepsilon}^2}{\left(1+\phi_2\right)\left(1-\phi_1-\phi_2\right)\left(1+\phi_1-\phi_2\right)}
- 自协方差
对于AR(1)
\gamma_k=\phi_1^k\sigma^2
对于AR(2)
\gamma_k=\begin{cases}\sigma^2 & k=0; \\ \frac{\phi_1}{1-\phi_2}\sigma^2 & k=1; \\\phi_1\gamma_{k-1}+\phi_2\gamma_{k-2} & k \ge2.\end{cases}
- 自相关系数ACF
对于AR(1)
\rho_k=\phi_1^k
对于AR(2)
\rho_k=\begin{cases}1 & k=0; \\ \frac{\phi_1}{1-\phi_2} & k=1; \\\phi_1\rho_{k-1}+\phi_2\rho_{k-2} & k \ge2.\end{cases}
- 偏自相关系数PACF
ACF描述了不同滞后项之间的关系,但这种关系受其他滞后项影响,PACF则排除了其它项的影响
例如对于AR(1),x_t只由x_{t-1}一阶递推得到,但二阶ACF却显著不为0,而二阶PACF接近0
对于AR(p)模型,ACF随阶数逐渐递减(拖尾),PACF前p阶较大,之后为较小(p期后截尾)
\text{AR(p)}\quad\Rightarrow\quad \begin{cases}
\phi_{kk}\ne0&k\le p
\\
\phi_{kk}=0&k\gt p
\end{cases}
对于AR(1)模型
\phi_{k k}=\left\{\begin{array}{cc}\phi_1 & k=1; \\0 & k \geq2.\end{array}\right.
对于AR(2)模型
\phi_{k k}=\left\{\begin{array}{cc}\frac{\phi_1}{1-\phi_2} & k=1; \\ \phi_2 & k=2; \\0, & k \geq3.\end{array}\right.
- 预测
- 预测值
\begin{align}
&x_t=(1-\Phi(B)) x_t+\varepsilon_t
\\
&\hat{x}_{t+l}=(1-\Phi(B)) \hat{x}_{t+l}
\end{align}
其中
\hat{x}_{t+k}={x}_{t+k}\quad(k\le 0)
- 预测方差
\begin{align}
& x_{t+l}=\frac{1}{\Phi(B)}\varepsilon_t= {\color{Red} \varepsilon_{t+l}+\psi_1\varepsilon_{t+l-1}+\cdots+\psi_{l-1}\varepsilon_{t+1}}+{\color{Blue} \psi_{l}\varepsilon_{t}+\cdots}
\\
&\mathrm{Var}(x_{t+l})=(1+\psi_1^2+\cdots+\psi_{l-1}^2)\sigma_\varepsilon^2
\end{align}
- 置信区间
\hat{x}_{t+l}\pm z_{\frac{\alpha}{2}}\sqrt{\mathrm{Var}(x_{t+l})}
MA模型
- MA(q)模型的定义
x_t=\mu+\varepsilon_t-\theta_1\varepsilon_{t-1}-\theta_2\varepsilon_{t-2}-\cdots-\theta_q \varepsilon_{t-q}
- 令y_t=x_t-\mu得到中心化MA(q)模型
- 延迟算子
x_t=(1-\theta_1B-\cdots-\theta_q B^q)\varepsilon_t=\Theta(B) \varepsilon_t
- 可逆性
- 特征根判别: 特征方程\Theta(\lambda^{-1})=0的所有解\lambda_i都落在单位圆内
- 平稳域判别: \phi_i落入平稳域中。MA(1)与MA(2)的平稳域如下
\begin{align}
&\text{MA(1)}:\quad -1\lt\theta_1\lt1
\\
&\text{MA(2)}:\quad -1\lt\theta_2\lt1,\theta_2\pm\theta_1\lt1
\end{align}
- 同时通过两种判别则为可逆MA模型
- 类似的,可逆MA(q)等效于AR(∞)
- 另外,MA(q)一定平稳
- 统计性质
- 均值为\mu
- 方差\sigma^2=\left(1+\theta_1^2+\cdots+\theta_q^2\right) \sigma_{\varepsilon}^2
- 自协方差、自相关函数ACF: 根据定义易推导,表现为q阶截尾
\begin{align}&\gamma_j= \begin{cases}\sigma^2&j=0\\\frac{-\theta_j+\theta_{j+1} \theta_1+\theta_{j+2} \theta_2+\cdots+\theta_q \theta_{q-j}}{1+\theta_1^2+\theta_2^2+\cdots+\theta_q^2} \sigma^2 & j=1,2, \cdots, q \\0 & j>q\end{cases} \\ &\rho_j= \begin{cases}1&j=0\\\frac{-\theta_j+\theta_{j+1} \theta_1+\theta_{j+2} \theta_2+\cdots+\theta_q \theta_{q-j}}{1+\theta_1^2+\theta_2^2+\cdots+\theta_q^2} & j=1,2, \cdots, q \\0 & j>q\end{cases} \end{align}
- 偏自相关函数PACF
对于MA(1)模型
\phi_{k k}=\frac{-\theta_1^k}{\sum_{j=0}^k \theta_1^{2j}}
MA(q)模型等效于AR(∞),因此PACF拖尾
- 预测
- 预测值
\begin{align}
&x_t=\Theta(B) \varepsilon_t
\\
&\hat{x}_{t+l}=\Theta(B) \hat{\varepsilon}_{t+l}
\end{align}
其中
\begin{cases}
\hat{\varepsilon}_{t+k}={\varepsilon}_{t+k}&k\le 0
\\
\hat{\varepsilon}_{t+k}=0&k\gt 0
\end{cases}
因此l\gt q时\hat{x}_{t+l}=0(若未中心化则\hat{x}_{t+l}=\mu)
- 预测方差
\begin{align}
& x_{t+l}=\Theta(B) \varepsilon_t={\color{Red} \varepsilon_{t+l}-\theta_1\varepsilon_{t+l-1}-\cdots-\theta_{l-1}\varepsilon_{t+1}}-{\color{Blue} \theta_{l}\varepsilon_{t}\cdots}
\\
&\mathrm{Var}(x_{t+l})=(1+\theta_1^2+\cdots+\theta_{l-1}^2)\sigma_\varepsilon^2
\end{align}
- 置信区间
\hat{x}_{t+l}\pm z_{\frac{\alpha}{2}}\sqrt{\mathrm{Var}(x_{t+l})}
ARMA模型
- ARMA(p,q)模型的定义
x_t=\phi_0+\phi_1x_{t-1}+\cdots+\phi_p x_{t-p}+\varepsilon_t-\theta_1\varepsilon_{t-1}-\cdots-\theta_q \varepsilon_{t-q}
- 中心化后
x_t=\phi_1x_{t-1}+\cdots+\phi_p x_{t-p}+\varepsilon_t-\theta_1\varepsilon_{t-1}-\cdots-\theta_q \varepsilon_{t-q}
- 延迟算子
\Phi(B) x_t=\Theta(B) \varepsilon_t
- 平稳性与可逆性
- 平稳性: 等价于判断AR(p)的平稳性
- 可逆性: 等价于判断MA(q)的可逆性
- 平稳ARMA(p,q)等效于MA(∞),可逆ARMA等效于AR(∞)
x_t=\frac{\Theta(B)}{\Phi(B)} \varepsilon_t\quad\quad\varepsilon_t=\frac{\Phi(B)}{\Theta(B)}x_t
- ARMA(p,q)的传递形式
\begin{align}
&x_t=\frac{\Theta(B)}{\Phi(B)} \varepsilon_t=\varepsilon_t+\psi_1\varepsilon_{t-1}+\psi_2\varepsilon_{t-2}+\cdots
\\
&\psi_0=1, \quad \psi_j=\sum_{k=1}^j \phi_k^{\prime} \psi_{j-k}-\theta^\prime_j, \quad \phi_k^{\prime}=\begin{cases}\phi_k, & k \leq p \\0, & k>p \end{cases},\quad\theta_k^{\prime}=\begin{cases}\theta_j, & j \leq q \\0, & j>q \end{cases}
\end{align}
- 统计性质
- 均值
\mu=\frac{\phi_0}{1-\phi_1-\cdots-\phi_p}=\frac{\phi_0}{\Phi(1)}
- 方差、自协方差、自相关系数ACF: 转换为MA(∞)后计算
- 自相关系数ACF与偏自相关系数PACF都是拖尾
- 预测
- 预测值
\begin{align}
&x_t=(1-\Phi(B)) x_t+\Theta(B) \varepsilon_t
\\
&\hat{x}_{t+l}=(1-\Phi(B)) \hat{x}_{t+l}+\Theta(B) \hat{\varepsilon}_{t+l}
\end{align}
其中
\begin{cases}
\hat{\varepsilon}_{t+k}={\varepsilon}_{t+k}, \hat{x}_{t+k}={x}_{t+k}&k\le 0
\\
\hat{\varepsilon}_{t+k}=0&k\gt 0
\end{cases}
- 预测方差
\begin{align}
& x_{t+l}=\frac{\Theta(B)}{\Phi(B)}\varepsilon_t= {\color{Red} \varepsilon_{t+l}+\psi_1\varepsilon_{t+l-1}+\cdots+\psi_{l-1}\varepsilon_{t+1}}+{\color{Blue} \psi_{l}\varepsilon_{t}+\cdots}
\\
&\mathrm{Var}(x_{t+l})=(1+\psi_1^2+\cdots+\psi_{l-1}^2)\sigma_\varepsilon^2
\end{align}
- 置信区间
\hat{x}_{t+l}\pm z_{\frac{\alpha}{2}}\sqrt{\mathrm{Var}(x_{t+l})}
- 确定阶数
- 样本自相关系数和样本偏自相关系数的渐近正态性,从而可以利用2倍标准差范围来辅助判断
- 若有超过5%的系数落入2倍标准差范围之外,则为拖尾。否则为d阶截尾,d为明显超过2倍标准差范围的系数
- 模型评判
非平稳时间序列分析
单整序列
- 单整
- 如果一个非平稳序列可以通过差分运算变成一个平稳序列, 那么我们就称它为一个单整序列
- 列至少通过d次差分才能变成一个平稳序列, 那么就称它为d阶单整序列。平稳序列可以视为0阶单整序列
- 差分
- 差分运算
\nabla x_t=x_t-x_{t-1}
- 差分与延迟算子
\nabla=1-B
- 一般情形
\begin{align}
&\nabla^p=(1-B)^p
\\
&\nabla_k=\left(1-B^k\right)
\end{align}
- 运用
- 序列蕴含着显著的线性趋势, 一阶差分就可以实现趋势平稳
- 序列蕴含着曲线趋势, 通常低阶(二阶或三阶)差分就可以提取出曲线趋势的影响
- 对于蕴含着固定周期的序列进行步长为周期长度的差分运算,通常可以较好地提取周期信息
ARIMA
- ARIMA(p,d,q)模型的定义
\Phi(B)\nabla^d x_t=\Theta(B) \varepsilon_t
- 性质
- 广义自回归系数多项式
\begin{align}
&\varphi(B)=\Phi(B)\nabla^d=\Phi(B)(1-B)^d
\\
&\varphi(B) x_t=\Theta(B) \varepsilon_t
\end{align}
\varphi(B)有d个根落在单位圆上、p个根落在单位圆内
- 广义自相关函数
x_t=\frac{\Theta(B)}{\varphi(B)} \varepsilon_t=\Psi(B) \varepsilon_t
即满足\Phi(B)(1-B)^d\Psi(B)=\Theta(B)
- 当d\ne 0时,ARIMA模型不具有平稳性、也不具有方差齐性
- 预测
- 预测值
\begin{align}
&x_t=(1-\varphi(B)) x_t+\Theta(B) \varepsilon_t
\\
&\hat{x}_{t+l}=(1-\varphi(B)) \hat{x}_{t+l}+\Theta(B) \hat{\varepsilon}_{t+l}
\end{align}
其中
\begin{cases}
\hat{\varepsilon}_{t+k}={\varepsilon}_{t+k}, \hat{x}_{t+k}={x}_{t+k}&k\le 0
\\
\hat{\varepsilon}_{t+k}=0&k\gt 0
\end{cases}
- 预测方差
\begin{align}
& x_{t+l}=\Psi(B) \varepsilon_{t+l}= {\color{Red} \varepsilon_{t+l}+\psi_1\varepsilon_{t+l-1}+\cdots+\psi_{l-1}\varepsilon_{t+1}}+{\color{Blue} \psi_{l}\varepsilon_{t}+\cdots}
\\
&\mathrm{Var}(x_{t+l})=(1+\psi_1^2+\cdots+\psi_{l-1}^2)\sigma_\varepsilon^2
\end{align}
- 置信区间
\hat{x}_{t+l}\pm z_{\frac{\alpha}{2}}\sqrt{\mathrm{Var}(x_{t+l})}
季节模型
- 简单季节模型
\Phi(B)\nabla_D\nabla^d x_t=\Theta(B)\varepsilon_t
- 乘积季节模型
\Phi(B)\Phi_S\left(B^S\right)\nabla_D\nabla^d x_t=\Theta(B)\Theta_S\left(B^S\right)\varepsilon_t