Fisher信息与Fisher信息矩阵

强化学习随记

不讲魔法讲道理

13915人浏览 · 2022-01-18 17:38:08

不讲魔法讲道理 · 2022-01-18 17:38:08 发布

Fisher信息：

作用：
度量随机变量 X 所含有的关于其自身随机分布函数的未知参数 θ 的信息量。Fisher信息越大，Score function的方差越大，代表的信息越多，对参数估计的准确度越高。<所以可以用作一种衡量指标判别模型或算法>

定义： 等同于KL散度的负二阶导数

假设观察到 i.i.d 的数据 $X_{1}, X_{2}, \ldots X_{n}$ 服从一个概率分布 $\theta), \theta$ 是目标参数（for simplicity，这里 $\theta$ 是个标量)，那么似然函数: $L(\mathbf{X} ; \theta)=\prod_{i=1}^{n} f\left(X_{i} ; \theta\right)$ 。
取其一阶导数： $S(\mathbf{X} ; \theta)=\sum_{i=1}^{n} \frac{\partial \log f\left(X_{i} ; \theta\right)}{\partial \theta}$ ，记作Score function（性质是均值为0）。
Fisher 信息即： $I(\theta)=E\left[S(X ; \theta)^{2}\right]-E[S(X ; \theta)]^{2}=\operatorname{Var}[S(X ; \theta)]$

Fisher信息矩阵：

费歇耳信息矩阵是费歇耳信息量由单个参数到多个参数情形的推广，形成一个同 $\theta$ 维度一致的Fisher矩阵

KL散度和Fisher矩阵有相似性，当作指标时有时可以相互替代：

以伯努利分布（即一次二项实验）为例：

from math import log
import matplotlib.pyplot as plt
import numpy as np

def kl(p,q):
    return p * log(p / q) + (1 - p) * log((1 - p) / (1 - q))

def fisher(p):
    return 1 / p / (1 - p)

def fisher_kl(p,q):
    return 0.5 * fisher(p) * (p - q)*(p - q)

x = np.linspace(0.1, 0.9, 20)
y1 = [kl(0.5, q) for q in x]
y2 = [fisher_kl(0.5, q) for q in x]

plt.plot(x, y1, label='kl')
plt.plot(x, y2, label='fisher_kl')
plt.legend()
plt.show()

在这里插入图片描述

华为开发者空间

华为开发者空间，是为全球开发者打造的专属开发空间，汇聚了华为优质开发资源及工具，致力于让每一位开发者拥有一台云主机，基于华为根生态开发、创新。

更多推荐

华为开发者空间云开发环境（容器）操作指导

华为开发者空间

【openGauss】Oracle与openGauss/GaussDB数据一致性高效核对方案

华为开发者空间

【GaussDB】在逻辑复制中剔除指定用户的事务

基于逻辑复制标签实现过滤，技术上可行，但打标签这个附加操作需要在执行sql前执行（除非使用触发器，但触发器属于高风险操作，不建议使用），如果漏执行，将会存在错误覆盖目标库的风险。历史表归档方案通过在源库建立历史表存储归档数据，配置复制规则排除历史表的删除操作，虽然会增加IO开销，但实现简单、安全性高，避免了事务过滤可能带来的风险。虽然插入历史表会产生额外IO，可能使数据归档操作时间翻倍，但相比剔除