金融风险管理

第 5 章：极值理论

最大值方法

从样本最大值到GEV

最大值方法先把风险问题转化为右尾最大损失的问题。
- 设 $X_1,X_2,\ldots$ 表示一列损失变量，数值越大表示损失越严重，前 $n$ 个观测中的最大损失为：
  $M_n=\max(X_1,\ldots,X_n)$
  因此，最大值方法不是研究普通波动，而是研究一段时期中最严重的损失。
- 最小值问题可以通过取负号并入最大值框架。
  $\min(X_1,\ldots,X_n) = -\max(-X_1,\ldots,-X_n)$
  因此，左尾极端风险可以转化为 $-X_i$ 的右尾最大值问题。
  金融收益的极端亏损通常就是这样转化为损失尾部建模的。
在独立同分布假设下，最大值分布由原分布的右尾决定。
- 若 $X_1,X_2,\ldots$ 独立同分布，公共分布函数为 $F$ ，则：
  $P(M_n\le x) = P(X_1\le x,\ldots,X_n\le x) = F(x)^n$
- 这个式子说明，最大值不超过 $x$ 等价于所有观测都不超过 $x$ 。
- 当 $n$ 增大时， $M_n$ 会向分布右尾移动，所以最大值分布主要由尾部决定。
因为 M_n 本身会随样本量移动，所以必须标准化。
- 若分布有有限右端点， $M_n$ 会逼近右端点；若分布右端点为无穷， $M_n$ 可能趋向无穷。
- 为了得到稳定极限，需要寻找 $c_n\gt 0$ 和 $d_n$ ，研究
  $\frac{M_n-d_n}{c_n}$
  $d_n$ 负责平移位置， $c_n$ 负责调整尺度。
- 这一步对应中心极限定理中对和 $S_n$ 做标准化的思想。
最大值理论的核心结论是：非退化极限只能是 GEV
- 若存在 $c_n\gt 0,d_n$ ，使得
  $P\left(\frac{M_n-d_n}{c_n}\le z\right) = F^n(c_nz+d_n) \to H(z),$
  且 $H$ 非退化，则 $H$ 必须属于广义极值分布族。
- 类比地，中心极限定理说明“和”的标准化极限常为正态分布；极值理论说明“最大值”的标准化极限为 GEV。
GEV的参数
- 标准 GEV 为
  $H_\xi(z)= \begin{cases} e^{-\left(1+\xi z\right)^{-\frac{1}{\xi}}},& \xi\ne0,\\[2mm] e^{-e^{-z}},& \xi=0, \end{cases} \qquad 1+\xi z\gt 0.$
  $H_\xi(z)$ 表示标准化后的最大损失不超过 $z$ 的概率，在原始尺度上等价于最大损失不超过 $x=\mu+\sigma z$ 。此外有三参数形式
  $H_{\xi,\mu,\sigma}(x) = H_\xi\left(\frac{x-\mu}{\sigma}\right), \qquad \mu\in\mathbb R,\ \sigma\gt 0.$
  $H_{\xi,\mu,\sigma}(x)$ 表示最大损失小于 $x$ 的概率
- $\mu$ 是位置参数，对应 $d_n$ ，随分块大小 $n$ 改变，控制最大值分布的水平。
  $\sigma$ 是尺度参数，对应 $c_n$ ，随分块大小 $n$ 改变控制最大值分布的分散程度。
  $\xi$ 是形状参数，与块大小无关，控制尾部类型，是极值分析中最关键的参数
  由于分块数 $n$ 为固定值，因此不在公式中单独列出
- 因此 $H(x)$ 可能是二者之一，需要根据情形区分，后文约定
  $\begin{aligned} &H_\xi(z)=H_{\xi,\mu,\sigma}(x) \\ &x=\mu+z\sigma \end{aligned}$
  出于简化目的，后文默认使用 $H(z)=H_\xi(z)$ 。如果出现原始损失水平 $x$ ，则默认先通过 $z=\frac{x-\mu}{\sigma}$ 转成标准化尺度。

形状参数与最大吸引域

形状参数
- 分布 $F$ 的右端点定义为：
  $x_F=\sup\{x\in\mathbb R:F(x)\lt 1\}.$
  若 $x_F=\infty$ ，说明分布理论上可以取任意大的值。
  若 $x_F\lt \infty$ ，说明分布存在有限上界。
- 当 $\xi\gt 0$ 时，GEV是 Fréchet 型
  右尾较重。
  右端点为无穷。
  极端大损失出现概率相对较高。
- 当 $\xi=0$ 时，GEV是 Gumbel 型
  尾部比 Fréchet 型轻。
  通常没有有限右端点。
- 当 $\xi\lt 0$ 时，GEV是 Weibull 型
  分布有有限右端点。
  最大值不能超过理论上界。
最大吸引域
- 最大值分布标准化以后，会收敛到哪一种极值分布
- 若存在 $c_n\gt 0,d_n$ ，使得：
  $F^n(c_nz+d_n)\to H(z),$
  则称：
  $F\in\operatorname{MDA}(H).$
- $H$ 最终只会是Fréchet吸引域、Gumbel吸引域、Weibull吸引域的三类之一
三种吸引域的特征
- Fréchet: $\xi\gt 0$ ，尾函数满足正则变化
  定义尾函数为
  $\bar F(x)=1-F(x)$
  当属于Fréchet吸引域时， $\bar F$ 满足
  $\lim_{x\to\infty}\frac{\bar{F}(tx)}{\bar{F}(x)}=t^{-\frac{1}{\xi}},\qquad t\gt 0$
  等价于写成
  $\bar F(x)=x^{-\frac{1}{\xi}}L(x).$
  上式为Fréchet吸引域的典型判别，其中 $L$ 是慢变函数，满足
  $\lim_{x\to\infty}\frac{L(tx)}{L(x)}=1,\qquad t\gt 0$
  这表示尾部主要按幂律 $x^{-\frac{1}{\xi}}$ 衰减， $\xi$ 越大， $\frac{1}{\xi}$ 越小，尾部衰减越慢，极端损失越危险
- Weibull: $\xi\lt 0$ ，逼近端点时满足正则变化
  $\bar F(x) = (x_F-x)^{-\frac{1}{\xi}}L\left(\frac{1}{x_F-x}\right), \qquad x\uparrow x_F,\ \xi\lt 0$
  令 $t=\frac{1}{x_F-x}$ ，得到Weibull吸引域的典型判别
  $\bar F\left(x_F-\frac{1}{t}\right)=t^{\frac{1}{\xi}}L(t), \qquad t\to\infty,\ \xi\lt 0.$
  因为 $\frac{1}{\xi}\lt 0$ ，所以当 $t\to\infty$ 时，右端点附近的剩余尾部概率趋于 0。
- Gumbel: 最大吸引域是非幂律重尾、非有限端点的中间情形
  它不具有 Fréchet 型的正则变化重尾
  它也不像 Weibull 型那样有有限右端点
  可以理解为尾部较轻但仍可能没有理论上界的一类分布

GEV的估计与运用

块最大值方法
- 实际数据中通常用块最大值方法把 GEV 理论落到样本上。
  设总样本量为 $N=mn$ ，将样本分为 $m$ 个长度为 $n$ 的块，第 $j$ 个块最大值为
  $M_{n,j} = \max\{X_{(j-1)n+1},\ldots,X_{jn}\}, \qquad j=1,\ldots,m.$
  原始样本由 $X_1,\ldots,X_N$ 变成块最大值样本 $M_{n,1},\ldots,M_{n,m}$ ，当 $n$ 足够大时，块最大值近似服从 GEV
  $P(M_{n,j}\le x)\approx H\left(\frac{x-\mu}{\sigma}\right).$
- 块大小选择决定偏差与方差的平衡。
  块太小：模型偏差较大
  块太大：块数 $m$ 少，参数估计方差较大
- 相依时间序列
  金融损失序列常有波动聚集和极端事件成簇，若 $(X_i)$ 严格平稳但不独立，在适当条件下可能有
  $\lim_{n\rightarrow \infty} P\left(\frac{M_n-d_n}{c_n}\le z\right)\to H(z)^\theta, \qquad \theta\in(0,1].$
  $\theta$ 是极值指数。 $\theta=1$ 表示极端事件近似独立； $\theta\lt 1$ 表示极端事件聚集，有效独立样本量降低
  对于相依数据，通常需要比独立情形更大的块，以减弱块内相依对极值近似的影响
- 用这些块最大值拟合 GEV，得到参数估计 $\hat\xi,\hat\mu,\hat\sigma$ ，从而计算极端分位数、回报水平和回报期等
极大似然估计
- 设 $h_{\xi,\mu,\sigma}$ 为 GEV 密度，块最大值样本的对数似然为
  $\ell(\xi,\mu,\sigma) = \sum_{j=1}^{m}\ln h_{\xi,\mu,\sigma}(M_{n,j}).$
- 估计时选择使 $\ell(\xi,\mu,\sigma)$ 最大的参数，同时必须满足支持集约束
  $1+\xi\frac{M_{n,j}-\mu}{\sigma}\gt 0, \qquad j=1,\ldots,m.$
- 从而得到标准化尺度上的块最大值分布
  $\hat H(z)=H_{\hat\xi}(z), \qquad z=\frac{x-\hat\mu}{\hat\sigma}$
  原始损失尺度上的分布则为
  $P(M_n\le x)\approx \hat H\left(\frac{x-\hat\mu}{\hat\sigma}\right)$
回报水平 $x_k$
- 如果平均每 (k) 个块才超过一次，那么这个损失水平是多少。例如 $x_{10}$ 表示当期损失超过这个值的概率为 $10\%$
  若 $H$ 是标准化后的块最大值分布，先定义标准化回报水平 $z_k$ ：
  $H(z_k)=1-\frac{1}{k}.$
  原始损失尺度上的回报水平为
  $x_k=\mu+\sigma z_k.$
- GEV的回报水平
  当 $\xi\ne0$ 时，标准化回报水平为
  $z_k = \frac{\left[-\ln\left(1-\frac{1}{k}\right)\right]^{-\xi}-1}{\xi}.$
  当 $\xi=0$ 时
  $z_k = -\ln\left[-\ln\left(1-\frac{1}{k}\right)\right].$
回报期k_x
- 表示平均多少个块会出现一次超过 $x$ 的最大损失。例如 $k_{10}$ 表示平均需要这个值的块数出现大于 $10$ 的损失
- 给定原始损失阈值 $x$ ，先标准化为
  $z=\frac{x-\mu}{\sigma}.$
  超过概率为
  $\bar H(z)=1-H(z)$
  回报期为
  $k_{x} = \frac{1}{\bar H(z)} = \frac{1}{1-H(z)}.$

阈值超越方法

从阈值超越到GPD

阈值超越
- 阈值超越方法解决的是块最大值方法的信息浪费问题。
  块最大值方法每个块只保留一个最大值。
  但在实际数据中，一个块内可能有多个很大的损失，除了最大值以外，其余高损失也包含尾部信息。
  阈值超越方法不再按块只取一个最大值，而是选择一个高阈值 $u$ ，保留所有满足 $X_i\gt u$ 的观测。
- 阈值超越方法的研究对象是超额损失
  设原始损失样本为 $X_1,\ldots,X_N$ ，给定高阈值 $u$ ，超过阈值的样本个数为
  $N_u=\sum_{i=1}^{N}\mathbf 1_{\{X_i\gt u\}}$
  对超过阈值的样本，只建模其超出阈值的部分
  $Y_i=X_i-u,\qquad X_i\gt u.$
  因此，阈值超越方法研究的是条件分布
  $X-u\mid X\gt u$
- 阈值超额分布定义为
  $F_u(x) = P(X-u\le x\mid X\gt u) = \frac{F(u+x)-F(u)}{1-F(u)}, \qquad 0\le x\lt x_F-u.$
  表示已经超过阈值 $u$ 的条件下，超额量 $X-u$ 不超过 $x$ 的概率。阈值越高， $F_u$ 越能代表真正尾部的局部形态。
广义帕累托分布
- 广义帕累托分布GPD的分布函数为
  $G_{\xi,\beta}(y) = \begin{cases} 1-\left(1+\xi\frac{y}{\beta}\right)^{-\frac{1}{\xi}}, &\xi\ne0,\\[2mm] 1-e^{-\frac{y}{\beta}}, &\xi=0, \end{cases} \qquad \beta\gt 0.$
  支持集要求
  $y\ge0,\qquad 1+\xi\frac{y}{\beta}\gt 0.$
  $\xi$ 是形状参数，与 GEV 中的形状参数一致，用来控制尾部类型。
  $\beta$ 是尺度参数，控制超额损失的大小尺度。
- GPD的尾部类型与 GEV 对应。
  当 $\xi\gt 0$ 时，GPD 为重尾型，尾部与 Pareto 型幂律衰减有关。
  当 $\xi=0$ 时，GPD 退化为指数分布：
  $G_{0,\beta}(y)=1-e^{-\frac{y}{\beta}}.$
  当 $\xi\lt 0$ 时，GPD 具有有限右端点。
- GPD的均值由形状参数决定
  若 $\xi\lt 1$ ，则 GPD 均值存在
  $E[Y]=\frac{\beta}{1-\xi}$
  若 $\xi\ge1$ ，均值不存在，表明此时尾部风险度量会非常不稳定
阈值超越与GPD
- Pickands--Balkema--de Haan 定理: 对广泛的分布类，当阈值 $u$ 趋近右端点 $x_F$ 时，超额分布可由 GPD 近似：
  $\lim_{u\uparrow x_F} \sup_{0\le y\lt x_F-u} \left|F_u(y)-G_{\xi,\beta(u)}(y)\right| = 0$
  这说明只要阈值足够高，就可以近似认为
  $F_u(y)\approx G_{\xi,\beta}(y)$
  这也是从最大值方法转向阈值超越方法的关键：GEV 刻画块最大值，GPD 刻画高阈值以上的超额损失
- GPD的阈值稳定性
  如果阈值 $u$ 以上的超额服从 GPD，那么提高阈值到 $v\gt u$ 后，超额分布仍为 GPD
  $F_v(y)=G_{\xi,\beta+\xi(v-u)}(y)$
  阈值从 $u$ 提升到 $v$ ，形状参数不变，距离参数提升 $\xi(v-u)$

阈值选取与参数估计

阈值选取
- 阈值 $u$ 的选择是阈值超越方法的核心
  阈值太低：尾部近似不充分，GPD 模型偏差较大。
  阈值太高：超过阈值的样本太少，参数估计方差较大。
  因此，阈值选择同样存在偏差与方差的权衡。
- 平均超额函数
  平均超额函数定义为
  $e(u)=E[X-u\mid X\gt u].$
  如果在阈值 $u$ 以上的超额分布近似为 $G_{\xi,\beta}$ ，并且 $\xi\lt 1$ ，则当前阈值处的平均超额为
  $e(u)=\frac{\beta}{1-\xi}.$
  如果把阈值从 $u$ 提高到 $v\gt u$ ，由 GPD 的阈值稳定性有
  $\beta(v)=\beta+\xi(v-u),$
  因而
  $e(v)=\frac{\beta+\xi(v-u)}{1-\xi}.$
  这表明，在合适的高阈值区域内，平均超额函数应当近似为阈值的线性函数
- 样本平均超额函数
  根据定义使用样本数据计算平均超额
  $e_N(u) = \frac{ \sum_{i=1}^{N}(X_i-u)\mathbf 1_{\{X_i\gt u\}} }{ \sum_{i=1}^{N}\mathbf 1_{\{X_i\gt u\}} }.$
- 画出 $e_N(u)$ 随 $u$ 的变化，可以辅助选择阈值。
  若某一阈值以上图形近似线性，则说明该区域用 GPD 描述较合理。
  若线性区间不明显，说明阈值选择和尾部模型都有较大不确定性。
参数估计
- 给定阈值 $u$ 后，只对超额样本拟合 GPD
  超额样本为
  $\{X_i-u:X_i\gt u\}.$
  建模假设为
  $X_i-u\mid X_i\gt u\approx G_{\xi,\beta}.$
  需要估计的参数是 $\xi$ 和 $\beta$ 。
- 极大似然估计
  当 $\xi\ne0$ 时，超额样本的对数似然为
  $\ell(\xi,\beta) = -N_u\ln\beta - \left(1+\frac{1}{\xi}\right) \sum_{i:X_i\gt u} \ln\left(1+\xi\frac{X_i-u}{\beta}\right).$
  支持集约束为
  $1+\xi\frac{X_i-u}{\beta}\gt 0, \qquad X_i\gt u.$
  当 $\xi=0$ 时，对应指数分布，对数似然为
  $\ell(0,\beta) = -N_u\ln\beta - \frac{1}{\beta} \sum_{i:X_i\gt u}(X_i-u).$
  极大化似然后得到 $\hat\xi,\hat\beta$ 。

GPD的运用

尾部概率
- GPD 可用于从阈值 $u$ 向更高损失水平外推尾部概率
  对 $x\gt u$ ，有
  $\bar F(x) = P(X\gt x) = P(X\gt u)P(X\gt x|X\gt u) = \bar F(u) \left(1+\xi\frac{x-u}{\beta}\right)^{-\frac{1}{\xi}}.$
- 根据样本估计
  用样本超过比例估计阈值超过概率：
  $\widehat{\bar F}(u)=\frac{N_u}{N}.$
- Smith型尾部估计器
  $\widehat{\bar F}(x) = \frac{N_u}{N} \left(1+\hat\xi\frac{x-u}{\hat\beta}\right)^{-\frac{1}{\hat\xi}}, \qquad x\gt u.$
VaR
- 令 $q_\alpha$ 为置信水平为 $\alpha$ 的 VaR，则
  $P(X\gt q_\alpha)=1-\alpha.$
  当 $\xi\ne0$ 时，
  $q_\alpha = u+\frac{\beta}{\xi} \left[ \left(\frac{\bar F(u)}{1-\alpha}\right)^\xi -1 \right].$
  当 $\xi=0$ 时，
  $q_\alpha = u+\beta\ln\left(\frac{\bar F(u)}{1-\alpha}\right).$
- 从样本估计
  把 $\bar F(u),\xi,\beta$ 都替换为估计值，对于 $\xi\ne0$
  $\hat q_\alpha = u+\frac{\hat\beta}{\hat\xi} \left[ \left(\frac{N_u}{N(1-\alpha)}\right)^{\hat\xi} -1 \right].$
  对于 $\xi=0$
  $\hat q_\alpha = u+\hat\beta\ln \left(\frac{N_u}{N(1-\alpha)}\right)$
ES
- 期望短缺 ES 衡量超过 VaR 后的平均损失
  在 $\xi\lt 1$ 条件下，GPD 给出
  $ES_\alpha = E[X\mid X\gt q_\alpha] = \frac{q_\alpha+\beta-\xi u}{1-\xi}.$
- 从样本估计
  $\widehat{ES}_\alpha = \frac{\hat q_\alpha+\hat\beta-\hat\xi u}{1-\hat\xi}.$
  若 $\xi\ge1$ ，ES 不存在，说明尾部极重
- ES 与 VaR 的相对大小由 $\xi$ 控制
  当 $\alpha\to1$ 时
  $\frac{ES_\alpha}{q_\alpha} \to \frac{1}{1-\xi}.$
  $\xi$ 越大，ES 相对 VaR 越大。
  因此 $\xi$ 不只是分布类型参数，也是尾部风险度量的核心参数。

Hill 方法与条件 EVT

Hill方法
- 定义
  Hill方法是 Fréchet 重尾下的尾指数估计方法，它假定尾函数具有幂律形式：
  $\bar F(x)=x^{-\alpha}L(x), \qquad \alpha\gt 0.$
  尾指数 $\alpha$ 与 EVT 形状参数满足
  $\xi=\frac{1}{\alpha}.$
  因此 Hill 方法本质上是在估计 $\xi$ 。
- 估计量
  Hill 估计量使用最高的 $k$ 个顺序统计量，设正损失样本的降序顺序统计量为
  $X_{(1)}\ge X_{(2)}\ge\cdots\ge X_{(N)}$
  Hill 估计量为
  $\hat\xi_{k}^{H} = \frac{1}{k} \sum_{j=1}^{k} \left(\ln X_{(j)}-\ln X_{(k+1)}\right).$
  尾指数估计为
  $\hat\alpha_{k} = \frac{1}{\hat\xi_{k}^{H}}.$
- $k$ 的选取
  渐近理论通常要求
  $k\to\infty, \qquad \frac{k}{N}\to0.$
  $k$ 太小，方差大； $k$ 太大，会把非尾部样本纳入估计，偏差大。
  Hill 图用于观察不同 $k$ 下估计值是否出现相对稳定区间，选取稳定时的值
Hill型尾部估计器
- 取阈值为 $X_{(k+1)}$ ，当阈值足够大时，有
  $\bar F(x)=x^{-\alpha}L(x)\rightarrow Cx^{-\alpha}$
  根据 $\bar F(X_{(k+1)})\approx\frac{k}{N}$ 解出 $C$ ，再估计出 $\alpha$ ，解得
  $\widehat{\bar F}_{H}(x) = \frac{k}{N} \left(\frac{x}{X_{(k+1)}}\right)^{-\hat\alpha_{k}}, \qquad x\gt X_{(k+1)}$
  它把阈值超过比例 $k/N$ 和幂律尾部外推结合起来。
- 与Smith型尾部估计器相比，Hill 方法更依赖 Fréchet 重尾假设。
  若 Hill 图没有稳定区，Hill 估计通常不可靠。

条件极值理论

金融时间序列常需要条件EVT。
- 直接对收益或损失序列使用 GPD，可能受到条件异方差和波动聚集影响。
- 条件 EVT 先用时间序列模型刻画条件均值和条件波动：
  $X_t=\mu_t+\sigma_t Z_t.$
- 再对标准化创新项 $Z_t$ 应用 GPD 阈值超越方法。
条件 VaR 与条件 ES 由创新项风险量缩放得到。
- 若已估计下一期条件均值和条件波动，则
  $\widehat{\operatorname{VaR}}_{t+1}^{\alpha} = \hat\mu_{t+1} + \hat\sigma_{t+1}\hat q_\alpha(Z).$
- 条件 ES 为
  $\widehat{ES}_{t+1}^{\alpha} = \hat\mu_{t+1} + \hat\sigma_{t+1}\widehat{ES}_\alpha(Z).$
- 这样可以把波动预测和尾部外推结合起来，得到随时间变化的风险度量。