第 5 章:极值理论
最大值方法
从样本最大值到GEV
- 最大值方法先把风险问题转化为右尾最大损失的问题。
- 设 X_1,X_2,\ldots 表示一列损失变量,数值越大表示损失越严重,前 n 个观测中的最大损失为:
M_n=\max(X_1,\ldots,X_n)
因此,最大值方法不是研究普通波动,而是研究一段时期中最严重的损失。
- 最小值问题可以通过取负号并入最大值框架。
\min(X_1,\ldots,X_n)
=
-\max(-X_1,\ldots,-X_n)
因此,左尾极端风险可以转化为 -X_i 的右尾最大值问题。
金融收益的极端亏损通常就是这样转化为损失尾部建模的。
- 在独立同分布假设下,最大值分布由原分布的右尾决定。
- 若 X_1,X_2,\ldots 独立同分布,公共分布函数为 F,则:
P(M_n\le x)
=
P(X_1\le x,\ldots,X_n\le x)
=
F(x)^n
- 这个式子说明,最大值不超过 x 等价于所有观测都不超过 x。
- 当 n 增大时,M_n 会向分布右尾移动,所以最大值分布主要由尾部决定。
- 因为 M_n 本身会随样本量移动,所以必须标准化。
- 若分布有有限右端点,M_n 会逼近右端点;若分布右端点为无穷,M_n 可能趋向无穷。
- 为了得到稳定极限,需要寻找 c_n\gt 0 和 d_n,研究
\frac{M_n-d_n}{c_n}
d_n 负责平移位置,c_n 负责调整尺度。
- 这一步对应中心极限定理中对和 S_n 做标准化的思想。
- 最大值理论的核心结论是:非退化极限只能是 GEV
- 若存在 c_n\gt 0,d_n,使得
P\left(\frac{M_n-d_n}{c_n}\le z\right)
=
F^n(c_nz+d_n)
\to H(z),
且 H 非退化,则 H 必须属于广义极值分布族。
- 类比地,中心极限定理说明“和”的标准化极限常为正态分布;极值理论说明“最大值”的标准化极限为 GEV。
- GEV的参数
- 标准 GEV 为
H_\xi(z)=
\begin{cases}
e^{-\left(1+\xi z\right)^{-\frac{1}{\xi}}},& \xi\ne0,\\[2mm]
e^{-e^{-z}},& \xi=0,
\end{cases}
\qquad 1+\xi z\gt 0.
H_\xi(z)表示标准化后的最大损失不超过z的概率,在原始尺度上等价于最大损失不超过x=\mu+\sigma z。此外有三参数形式
H_{\xi,\mu,\sigma}(x)
=
H_\xi\left(\frac{x-\mu}{\sigma}\right),
\qquad \mu\in\mathbb R,\ \sigma\gt 0.
H_{\xi,\mu,\sigma}(x)表示最大损失小于x的概率
- \mu 是位置参数,对应d_n,随分块大小n改变,控制最大值分布的水平。
\sigma 是尺度参数,对应c_n,随分块大小n改变控制最大值分布的分散程度。
\xi 是形状参数,与块大小无关,控制尾部类型,是极值分析中最关键的参数
由于分块数n为固定值,因此不在公式中单独列出
- 因此H(x)可能是二者之一,需要根据情形区分,后文约定
\begin{aligned}
&H_\xi(z)=H_{\xi,\mu,\sigma}(x)
\\
&x=\mu+z\sigma
\end{aligned}
出于简化目的,后文默认使用H(z)=H_\xi(z)。如果出现原始损失水平x,则默认先通过z=\frac{x-\mu}{\sigma}转成标准化尺度。
形状参数与最大吸引域
- 形状参数
- 分布 F 的右端点定义为:
x_F=\sup\{x\in\mathbb R:F(x)\lt 1\}.
若 x_F=\infty,说明分布理论上可以取任意大的值。
若 x_F\lt \infty,说明分布存在有限上界。
- 当 \xi\gt 0 时,GEV是 Fréchet 型
右尾较重。
右端点为无穷。
极端大损失出现概率相对较高。
- 当 \xi=0 时,GEV是 Gumbel 型
尾部比 Fréchet 型轻。
通常没有有限右端点。
- 当 \xi\lt 0 时,GEV是 Weibull 型
分布有有限右端点。
最大值不能超过理论上界。
- 最大吸引域
- 最大值分布标准化以后,会收敛到哪一种极值分布
- 若存在 c_n\gt 0,d_n,使得:
F^n(c_nz+d_n)\to H(z),
则称:
F\in\operatorname{MDA}(H).
- H 最终只会是Fréchet吸引域、Gumbel吸引域、Weibull吸引域的三类之一
- 三种吸引域的特征
- Fréchet: \xi\gt 0,尾函数满足正则变化
定义尾函数为
\bar F(x)=1-F(x)
当属于Fréchet吸引域时,\bar F满足
\lim_{x\to\infty}\frac{\bar{F}(tx)}{\bar{F}(x)}=t^{-\frac{1}{\xi}},\qquad t\gt 0
等价于写成
\bar F(x)=x^{-\frac{1}{\xi}}L(x).
上式为Fréchet吸引域的典型判别,其中 L 是慢变函数,满足
\lim_{x\to\infty}\frac{L(tx)}{L(x)}=1,\qquad t\gt 0
这表示尾部主要按幂律 x^{-\frac{1}{\xi}} 衰减,\xi 越大,\frac{1}{\xi} 越小,尾部衰减越慢,极端损失越危险
- Weibull: \xi\lt 0,逼近端点时满足正则变化
\bar F(x)
=
(x_F-x)^{-\frac{1}{\xi}}L\left(\frac{1}{x_F-x}\right),
\qquad x\uparrow x_F,\ \xi\lt 0
令t=\frac{1}{x_F-x},得到Weibull吸引域的典型判别
\bar F\left(x_F-\frac{1}{t}\right)=t^{\frac{1}{\xi}}L(t),
\qquad t\to\infty,\ \xi\lt 0.
因为 \frac{1}{\xi}\lt 0,所以当 t\to\infty 时,右端点附近的剩余尾部概率趋于 0。
- Gumbel: 最大吸引域是非幂律重尾、非有限端点的中间情形
它不具有 Fréchet 型的正则变化重尾
它也不像 Weibull 型那样有有限右端点
可以理解为尾部较轻但仍可能没有理论上界的一类分布
GEV的估计与运用
- 块最大值方法
- 实际数据中通常用块最大值方法把 GEV 理论落到样本上。
设总样本量为 N=mn,将样本分为 m 个长度为 n 的块,第 j 个块最大值为
M_{n,j}
=
\max\{X_{(j-1)n+1},\ldots,X_{jn}\},
\qquad j=1,\ldots,m.
原始样本由 X_1,\ldots,X_N 变成块最大值样本 M_{n,1},\ldots,M_{n,m},当 n 足够大时,块最大值近似服从 GEV
P(M_{n,j}\le x)\approx H\left(\frac{x-\mu}{\sigma}\right).
- 块大小选择决定偏差与方差的平衡。
块太小:模型偏差较大
块太大:块数 m 少,参数估计方差较大
- 相依时间序列
金融损失序列常有波动聚集和极端事件成簇,若 (X_i) 严格平稳但不独立,在适当条件下可能有
\lim_{n\rightarrow \infty} P\left(\frac{M_n-d_n}{c_n}\le z\right)\to H(z)^\theta,
\qquad \theta\in(0,1].
\theta 是极值指数。\theta=1 表示极端事件近似独立;\theta\lt 1 表示极端事件聚集,有效独立样本量降低
对于相依数据,通常需要比独立情形更大的块,以减弱块内相依对极值近似的影响
- 用这些块最大值拟合 GEV,得到参数估计 \hat\xi,\hat\mu,\hat\sigma,从而计算极端分位数、回报水平和回报期等
- 极大似然估计
- 设 h_{\xi,\mu,\sigma} 为 GEV 密度,块最大值样本的对数似然为
\ell(\xi,\mu,\sigma)
=
\sum_{j=1}^{m}\ln h_{\xi,\mu,\sigma}(M_{n,j}).
- 估计时选择使 \ell(\xi,\mu,\sigma) 最大的参数,同时必须满足支持集约束
1+\xi\frac{M_{n,j}-\mu}{\sigma}\gt 0,
\qquad j=1,\ldots,m.
- 从而得到标准化尺度上的块最大值分布
\hat H(z)=H_{\hat\xi}(z),
\qquad z=\frac{x-\hat\mu}{\hat\sigma}
原始损失尺度上的分布则为
P(M_n\le x)\approx \hat H\left(\frac{x-\hat\mu}{\hat\sigma}\right)
- 回报水平x_k
- 如果平均每 (k) 个块才超过一次,那么这个损失水平是多少。例如x_{10}表示当期损失超过这个值的概率为10\%
若 H 是标准化后的块最大值分布,先定义标准化回报水平z_k:
H(z_k)=1-\frac{1}{k}.
原始损失尺度上的回报水平为
x_k=\mu+\sigma z_k.
- GEV的回报水平
当 \xi\ne0 时,标准化回报水平为
z_k
=
\frac{\left[-\ln\left(1-\frac{1}{k}\right)\right]^{-\xi}-1}{\xi}.
当 \xi=0 时
z_k
=
-\ln\left[-\ln\left(1-\frac{1}{k}\right)\right].
- 回报期k_x
- 表示平均多少个块会出现一次超过 x 的最大损失。例如k_{10}表示平均需要这个值的块数出现大于10的损失
- 给定原始损失阈值 x,先标准化为
z=\frac{x-\mu}{\sigma}.
超过概率为
\bar H(z)=1-H(z)
回报期为
k_{x}
=
\frac{1}{\bar H(z)}
=
\frac{1}{1-H(z)}.
阈值超越方法
从阈值超越到GPD
- 阈值超越
- 阈值超越方法解决的是块最大值方法的信息浪费问题。
块最大值方法每个块只保留一个最大值。
但在实际数据中,一个块内可能有多个很大的损失,除了最大值以外,其余高损失也包含尾部信息。
阈值超越方法不再按块只取一个最大值,而是选择一个高阈值 u,保留所有满足 X_i\gt u 的观测。
- 阈值超越方法的研究对象是超额损失
设原始损失样本为 X_1,\ldots,X_N,给定高阈值 u,超过阈值的样本个数为
N_u=\sum_{i=1}^{N}\mathbf 1_{\{X_i\gt u\}}
对超过阈值的样本,只建模其超出阈值的部分
Y_i=X_i-u,\qquad X_i\gt u.
因此,阈值超越方法研究的是条件分布
X-u\mid X\gt u
- 阈值超额分布定义为
F_u(x)
=
P(X-u\le x\mid X\gt u)
=
\frac{F(u+x)-F(u)}{1-F(u)},
\qquad 0\le x\lt x_F-u.
表示已经超过阈值 u 的条件下,超额量 X-u 不超过 x 的概率。阈值越高,F_u 越能代表真正尾部的局部形态。
- 广义帕累托分布
- 广义帕累托分布GPD的分布函数为
G_{\xi,\beta}(y)
=
\begin{cases}
1-\left(1+\xi\frac{y}{\beta}\right)^{-\frac{1}{\xi}},
&\xi\ne0,\\[2mm]
1-e^{-\frac{y}{\beta}},
&\xi=0,
\end{cases}
\qquad \beta\gt 0.
支持集要求
y\ge0,\qquad 1+\xi\frac{y}{\beta}\gt 0.
\xi 是形状参数,与 GEV 中的形状参数一致,用来控制尾部类型。
\beta 是尺度参数,控制超额损失的大小尺度。
- GPD的尾部类型与 GEV 对应。
当 \xi\gt 0 时,GPD 为重尾型,尾部与 Pareto 型幂律衰减有关。
当 \xi=0 时,GPD 退化为指数分布:
G_{0,\beta}(y)=1-e^{-\frac{y}{\beta}}.
当 \xi\lt 0 时,GPD 具有有限右端点。
- GPD的均值由形状参数决定
若 \xi\lt 1,则 GPD 均值存在
E[Y]=\frac{\beta}{1-\xi}
若 \xi\ge1,均值不存在,表明此时尾部风险度量会非常不稳定
- 阈值超越与GPD
- Pickands--Balkema--de Haan 定理: 对广泛的分布类,当阈值 u 趋近右端点 x_F 时,超额分布可由 GPD 近似:
\lim_{u\uparrow x_F}
\sup_{0\le y\lt x_F-u}
\left|F_u(y)-G_{\xi,\beta(u)}(y)\right|
=
0
这说明只要阈值足够高,就可以近似认为
F_u(y)\approx G_{\xi,\beta}(y)
这也是从最大值方法转向阈值超越方法的关键:GEV 刻画块最大值,GPD 刻画高阈值以上的超额损失
- GPD的阈值稳定性
如果阈值 u 以上的超额服从 GPD,那么提高阈值到 v\gt u 后,超额分布仍为 GPD
F_v(y)=G_{\xi,\beta+\xi(v-u)}(y)
阈值从u提升到v,形状参数不变,距离参数提升\xi(v-u)
阈值选取与参数估计
- 阈值选取
- 阈值 u 的选择是阈值超越方法的核心
阈值太低:尾部近似不充分,GPD 模型偏差较大。
阈值太高:超过阈值的样本太少,参数估计方差较大。
因此,阈值选择同样存在偏差与方差的权衡。
- 平均超额函数
平均超额函数定义为
e(u)=E[X-u\mid X\gt u].
如果在阈值 u 以上的超额分布近似为 G_{\xi,\beta},并且 \xi\lt 1,则当前阈值处的平均超额为
e(u)=\frac{\beta}{1-\xi}.
如果把阈值从 u 提高到 v\gt u,由 GPD 的阈值稳定性有
\beta(v)=\beta+\xi(v-u),
因而
e(v)=\frac{\beta+\xi(v-u)}{1-\xi}.
这表明,在合适的高阈值区域内,平均超额函数应当近似为阈值的线性函数
- 样本平均超额函数
根据定义使用样本数据计算平均超额
e_N(u)
=
\frac{
\sum_{i=1}^{N}(X_i-u)\mathbf 1_{\{X_i\gt u\}}
}{
\sum_{i=1}^{N}\mathbf 1_{\{X_i\gt u\}}
}.
- 画出 e_N(u) 随 u 的变化,可以辅助选择阈值。
若某一阈值以上图形近似线性,则说明该区域用 GPD 描述较合理。
若线性区间不明显,说明阈值选择和尾部模型都有较大不确定性。
- 参数估计
- 给定阈值 u 后,只对超额样本拟合 GPD
超额样本为
\{X_i-u:X_i\gt u\}.
建模假设为
X_i-u\mid X_i\gt u\approx G_{\xi,\beta}.
需要估计的参数是 \xi 和 \beta。
- 极大似然估计
当 \xi\ne0 时,超额样本的对数似然为
\ell(\xi,\beta)
=
-N_u\ln\beta
-
\left(1+\frac{1}{\xi}\right)
\sum_{i:X_i\gt u}
\ln\left(1+\xi\frac{X_i-u}{\beta}\right).
支持集约束为
1+\xi\frac{X_i-u}{\beta}\gt 0,
\qquad X_i\gt u.
当 \xi=0 时,对应指数分布,对数似然为
\ell(0,\beta)
=
-N_u\ln\beta
-
\frac{1}{\beta}
\sum_{i:X_i\gt u}(X_i-u).
极大化似然后得到 \hat\xi,\hat\beta。
GPD的运用
- 尾部概率
- GPD 可用于从阈值 u 向更高损失水平外推尾部概率
对 x\gt u,有
\bar F(x)
=
P(X\gt x)
=
P(X\gt u)P(X\gt x|X\gt u)
=
\bar F(u)
\left(1+\xi\frac{x-u}{\beta}\right)^{-\frac{1}{\xi}}.
- 根据样本估计
用样本超过比例估计阈值超过概率:
\widehat{\bar F}(u)=\frac{N_u}{N}.
- Smith型尾部估计器
\widehat{\bar F}(x)
=
\frac{N_u}{N}
\left(1+\hat\xi\frac{x-u}{\hat\beta}\right)^{-\frac{1}{\hat\xi}},
\qquad x\gt u.
- VaR
- 令 q_\alpha 为置信水平为 \alpha 的 VaR,则
P(X\gt q_\alpha)=1-\alpha.
当 \xi\ne0 时,
q_\alpha
=
u+\frac{\beta}{\xi}
\left[
\left(\frac{\bar F(u)}{1-\alpha}\right)^\xi
-1
\right].
当 \xi=0 时,
q_\alpha
=
u+\beta\ln\left(\frac{\bar F(u)}{1-\alpha}\right).
- 从样本估计
把 \bar F(u),\xi,\beta 都替换为估计值,对于 \xi\ne0
\hat q_\alpha
=
u+\frac{\hat\beta}{\hat\xi}
\left[
\left(\frac{N_u}{N(1-\alpha)}\right)^{\hat\xi}
-1
\right].
对于 \xi=0
\hat q_\alpha
=
u+\hat\beta\ln
\left(\frac{N_u}{N(1-\alpha)}\right)
- ES
- 期望短缺 ES 衡量超过 VaR 后的平均损失
在 \xi\lt 1 条件下,GPD 给出
ES_\alpha
=
E[X\mid X\gt q_\alpha]
=
\frac{q_\alpha+\beta-\xi u}{1-\xi}.
- 从样本估计
\widehat{ES}_\alpha
=
\frac{\hat q_\alpha+\hat\beta-\hat\xi u}{1-\hat\xi}.
若 \xi\ge1,ES 不存在,说明尾部极重
- ES 与 VaR 的相对大小由 \xi 控制
当 \alpha\to1 时
\frac{ES_\alpha}{q_\alpha}
\to
\frac{1}{1-\xi}.
\xi 越大,ES 相对 VaR 越大。
因此 \xi 不只是分布类型参数,也是尾部风险度量的核心参数。
Hill 方法与条件 EVT
- Hill方法
- 定义
Hill方法是 Fréchet 重尾下的尾指数估计方法,它假定尾函数具有幂律形式:
\bar F(x)=x^{-\alpha}L(x),
\qquad \alpha\gt 0.
尾指数 \alpha 与 EVT 形状参数满足
\xi=\frac{1}{\alpha}.
因此 Hill 方法本质上是在估计 \xi。
- 估计量
Hill 估计量使用最高的 k 个顺序统计量,设正损失样本的降序顺序统计量为
X_{(1)}\ge X_{(2)}\ge\cdots\ge X_{(N)}
Hill 估计量为
\hat\xi_{k}^{H}
=
\frac{1}{k}
\sum_{j=1}^{k}
\left(\ln X_{(j)}-\ln X_{(k+1)}\right).
尾指数估计为
\hat\alpha_{k}
=
\frac{1}{\hat\xi_{k}^{H}}.
- k的选取
渐近理论通常要求
k\to\infty,
\qquad
\frac{k}{N}\to0.
k 太小,方差大;k 太大,会把非尾部样本纳入估计,偏差大。
Hill 图用于观察不同 k 下估计值是否出现相对稳定区间,选取稳定时的值
- Hill型尾部估计器
- 取阈值为X_{(k+1)},当阈值足够大时,有
\bar F(x)=x^{-\alpha}L(x)\rightarrow Cx^{-\alpha}
根据\bar F(X_{(k+1)})\approx\frac{k}{N}解出C,再估计出\alpha,解得
\widehat{\bar F}_{H}(x)
=
\frac{k}{N}
\left(\frac{x}{X_{(k+1)}}\right)^{-\hat\alpha_{k}},
\qquad x\gt X_{(k+1)}
它把阈值超过比例 k/N 和幂律尾部外推结合起来。
- 与Smith型尾部估计器相比,Hill 方法更依赖 Fréchet 重尾假设。
若 Hill 图没有稳定区,Hill 估计通常不可靠。
条件极值理论
- 金融时间序列常需要条件EVT。
- 直接对收益或损失序列使用 GPD,可能受到条件异方差和波动聚集影响。
- 条件 EVT 先用时间序列模型刻画条件均值和条件波动:
X_t=\mu_t+\sigma_t Z_t.
- 再对标准化创新项 Z_t 应用 GPD 阈值超越方法。
- 条件 VaR 与条件 ES 由创新项风险量缩放得到。
- 若已估计下一期条件均值和条件波动,则
\widehat{\operatorname{VaR}}_{t+1}^{\alpha}
=
\hat\mu_{t+1}
+
\hat\sigma_{t+1}\hat q_\alpha(Z).
- 条件 ES 为
\widehat{ES}_{t+1}^{\alpha}
=
\hat\mu_{t+1}
+
\hat\sigma_{t+1}\widehat{ES}_\alpha(Z).
- 这样可以把波动预测和尾部外推结合起来,得到随时间变化的风险度量。