相关性分析--copula

尾生爱柱子

15979人浏览 · 2022-06-08 09:55:34

尾生爱柱子 · 2022-06-08 09:55:34 发布

前言

在项目需求运用了线性分析、皮尔逊相关系数、马氏距离等多种分析方法之后，无法得到精确度较高的预测结果，遂学习一下copula模型

一、copula是什么？

形象的说，我们可以把copula函数叫做“连接函数”或“相依函数”，它是把多个随机变量的联合分布与它们各自的边缘分布相连接起来的函数。

在这里插入图片描述
Sklar定理
令F(·,·)为具有边缘分布F(·)的联合分布函数，那么存在一个Copula函数C(·,·)，满足

边缘分布：假设有一个和两个变量相关的概率分布：p(x,y)，关于其中一个特定变量的边缘分布则为给定其他变量的条件概率分布：P(x) = $\sum_{y}$ P(x,y) = $\sum_{y}$ P(x|y)P(y)
联合分布可以唯一决定边缘分布，但边缘分布不一定能决定联合分布
边缘密度的乘积等于联合密度

二、相关系数

1.提出问题

对于两个变量之间的相关性关系，我们可以利用相关系数ρ来度量，但是，我们看下面的问题：

若x~N(0,1)，y= x² ,显然x，y关系密切
则cov(x,y) = E(xy)-E(x)E(y)=E( $x^3$ )-E(x)E( $x^2$ )=0

当变量间的关系是非线性时，用相关系数来度量其关系是不可靠的，而Copula函数在一定范围内就可以避免这个问题。

2.基于Copula函数的相关性测度

2.1.定理

对随机变量 $x_{1}$ , $x_{2}$ ,…, $x_{n}$ 做严格的单调增变换，相应的Copula函数不变。

Kendall秩相关系数 $\tau$
Spearman秩相关系数 $\rho$
Gini关联系数 $\gamma$

1.Kendall秩相关系数 $\tau$ ：（描述变化趋势）指设有n个统计对象，每个对象有两个属性的系数。将所有统计对象按属性1取值排列，不失一般性，设此时属性2取值的排列是乱序的。设P为两个属性值排列大小关系一致的统计对象对数。则：
R=(P-(n*(n-1)/2-P))/(n*(n-1)/2)=(4P/(n*(n-1)))-1

( $x_1$ , $y_1$ )和( $x_2$ , $y_2$ )为独立同分布的随机向量
Kendall秩相关系数可以有Copula函数给出：
$\tau$ = 4 $\int_1^0$ $\int_1^0$ C(u,v)dC(u,v)-1

2. Spearman秩相关系数 $\rho$ ：用来度量两个变量之间联系的强弱，是一种非参数的统计相关性测度，一般用 $\rho$ 表示，它所衡量的是两个变量有多大程度可以用单调函数描绘。如果没有重复点，且两个变量单调相关时，Spearman相关系数为+1或者−1

( $x_1$ , $y_1$ )和( $x_2$ , $y_2$ )， ( $x_3$ , $y_3$ )为独立同分的随机向量，由相应的Copula函数来表示如下：
$\rho$ = 12 $\int_1^0$ $\int_1^0$ uvdC(u,v)-3 = 12 $\int_1^0$ $\int_1^0$ C(u,v)dC(u,v)-3