耦合 (概率)

耦合，或稱关联结构（英語：），為处理统计中随机变量相关性问题的一种方法，由一组随机变量的邊際分布来确定它们的联合分布。通过关联结构来确定一个联合分布的方法是基于如下思想，一个简单转换可以通过分别将每个边缘分布都转换为平均分布的转换组成。这样，一个关联结构（dependence structure）就可以表达为一个基于上述所得平均分布之上的联合分布，而关联结构（copula）即是边缘均匀随机变量之上的一个联合分布。在实际应用中，上述的转换可能被设置为每个边缘变量的初始化步骤，或者上述转换的参数可能根据具体关联结构的对应参数设置。

按照所表达的关联关系的不同，关联结构被分为很多不同类别。典型情况下，一个种类的关联结构有多个参数用来表达不同的关联强度和关联类型。下面将大概描述一些有代表性的关联结构。关联结构的一个典型应用是，通过选择某一种类的关联结构来定义某一适合特定样本数据分布的联合分布，当然关联结构也可以来自于任何相应的给定联合分布。

基本思想

考察两个随机变量X,Y,分别具有连续累积分布函数F_X和F_Y。通过分别在两个随机变量上应用概率积分转换，得到X’ = F_X（X）和Y’ = F_Y（Y）。因此X’和Y’都是具有连续均匀分布的变量，相关性通常取决于X和Y是否是相关（自然，如果X和Y是不相关的，那么X’和Y’也是不相关的）。因为这个转换是可逆的，可以定义X和Y之间的相关性等于X’和Y’之间的相关性。因为X’和Y’是均匀分布的随机变量，所以问题被简化为定义一个在两个均匀分布之上的二项分布，这就是关联结构。所以，这一基本思想就是，通过把边缘变量转化为均匀分布变量而不再需要考察很多不同的边缘分布以简化问题，然后再把相关性定义为一个在均匀分布之上的联合分布。

定义

一个 关联结构是一个定义在n维单位立方体[0, 1]ⁿ上的多元联合分布，其每个边缘分布都是在[0, 1]区间上的均匀分布。

特别的， $C:[0,1]^{n}\to [0,1]$ 是一个n维关联结构，有

C\left(\mathbf {u} \right)=0

当

\mathbf {u} \in [0,1]^{n}

有至少一个分量为

0;

C\left(\mathbf {u} \right)=u_{i}

当

\mathbf {u} \in [0,1]^{n}

所有分量为

1

除了第i个分量等于

u_{i};

C\left(\mathbf {u} \right)

是n维递增的，也即，有每个hyperrectangle

B=\times _{i=1}^{n}[x_{i},y_{i}]\subseteq [0,1]^{n};

V_{C}\left(B\right):=\sum _{\mathbf {z} \in \times _{i=1}^{n}\{x_{i},y_{i}\}}(-1)^{N(\mathbf {z} )}C(\mathbf {z} )\geq 0;

其中 $N(\mathbf {z} )=\operatorname {card} \{k\mid z_{k}=x_{k}\}$ 。 $V_{C}\left(B\right)$ 所谓的 $B$ 的C-体积（volume）。

Sklar定理

由Sklar提出的这条定理[1]是大多数关联结构的应用的基础。Sklar定理指出，一个给定的p个变量的联合分布函数H，F₁, F₂,F₃,...F_p为其边缘分布函数，必存在这样一个关联结构C使H = C（F₁, F₂,F₃,...F_p）

以二项分布为例，Sklar定理应用如下。对任一二项分布函数H（x, y），令F（x） = H（x, ∞）而G（y） = H（∞, y）为其单变量边缘概率分布函数。那么存在关联结构C以使

H(x,y)=C(F(x),G(y))\,

（此处已知分布C和它的累积分布函数）。此外，如果边缘分布F（x）和G（y）连续，那么关联结构函数C是唯一的。否则，关联结构C在边缘分布的值域上是唯一确定的。

弗雷歇–霍夫丁（Fréchet–Hoeffding）关联结构边界

Graphs of the Fréchet–Hoeffding copula limits and of the independence copula (in the middle).

最小（反单调）关联结构：是所有关联结构的下边界。仅在二项分布中，变量间表现为完全负相关。

W(u,v)=\max(0,u+v-1).\,

对n-元关联结构，下边界为

W(u_{1},\ldots ,u_{n}):=\max \left\{1-n+\sum \limits _{i=1}^{n}{u_{i}},0\right\}\leq C(u_{1},\ldots ,u_{n}).

最大（共单调）关联结构：是所有关联结构的上边界。其在二项分布中，变量间表现为完全正相关：

M(u,v)=\min(u,v).\,

对n-元关联结构，上边界为

C(u_{1},\ldots ,u_{n})\leq \min _{j\in \{1,\ldots ,n\}}u_{j}=:M(u_{1},\ldots ,u_{n}).

结论：对所有关联结构C（u, v）,

W(u,v)\leq C(u,v)\leq M(u,v).

对于多元关联的情况为

W(u_{1},\ldots ,u_{n})\leq C(u_{1},\ldots ,u_{n})\leq M(u_{1},\ldots ,u_{n}).

关联结构种类

正态关联结构

Cumulative distribution and probability density functions of Gaussian copula with ρ = 0.4

在金融建模中常用到的一个关联结构是正态关联结构，正态关联结构是根据Sklar定理由二元正态分布构成。设 $\Phi _{\rho }$ 是标准二元正态累积分布函数，相关系数为ρ，则正态关联结构函数为

C_{\rho }(u,v)=\Phi _{\rho }\left(\Phi ^{-1}(u),\Phi ^{-1}(v)\right)

其中， $u,v\in [0,1]$ 而 $\Phi$ 表示标准正态累积分布函数。

对C微分得出关联结构的密度函数：

c_{\rho }(u,v)={\frac {\varphi _{X,Y,\rho }(\Phi ^{-1}(u),\Phi ^{-1}(v))}{\varphi (\Phi ^{-1}(u))\varphi (\Phi ^{-1}(v))}}

其中

\varphi _{X,Y,\rho }(x,y)={\frac {1}{2\pi {\sqrt {1-\rho ^{2}}}}}\exp \left(-{\frac {1}{2(1-\rho ^{2})}}\left[{x^{2}+y^{2}}-2\rho xy\right]\right)

是皮尔逊矩相关系数为ρ标准二元正态分布的概率密度函数，其标准正态密度为 $\varphi$ 。

参考资料

Sklar, A. . Publ. Inst. Statist. Univ. Paris. 1959, 8: 229–231.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[Sklar_1959-1] Sklar, A. . Publ. Inst. Statist. Univ. Paris. 1959, 8: 229–231.