损失函数——交叉熵损失函数（CrossEntropy Loss）

损失函数——交叉熵损失函数（CrossEntropy Loss）交叉熵函数为在处理分类问题中常用的一种损失函数，其具体公式为：1.交叉熵损失函数由来交叉熵是信息论中的一个重要概念，主要用于度量两个概率分布间的差异性。首先我们来了解几个概念。1.1信息量信息论奠基人香农（Shannon）认为“信息是用来消除随机不确定性的东西”。也就是说衡量信息量大小就看这个信息消除不确定性的程度。“太阳从东方升起了

winupup

86587人浏览 · 2020-12-16 20:51:02

winupup · 2020-12-16 20:51:02 发布

损失函数——交叉熵损失函数（CrossEntropy Loss）

交叉熵函数为在处理分类问题中常用的一种损失函数，其具体公式为：

$H(p,q)=-\sum_{i=1}^{n}p(x_{i})log(q(x{_{i}}))$

1.交叉熵损失函数由来

交叉熵是信息论中的一个重要概念，主要用于度量两个概率分布间的差异性。首先我们来了解几个概念。

1.1信息量

信息论奠基人香农（Shannon）认为“信息是用来消除随机不确定性的东西”。也就是说衡量信息量大小就看这个信息消除不确定性的程度。

“太阳从东方升起了”这条信息没有减少不确定性。因为太阳肯定从东面升起。这是句废话，信息量为0。

“六月份下雪了”，这条信息就比较有价值，根据历史统计信息来看，六月份鲜有下雪记录，可知该语句信息量较大。

从上面两个例子可以看出：信息量的大小和事件发生的概率成反比。

由此引出信息量的表示:

$I(x)=-log(P(x))$

其中P(x)表示为, 时间x的发生概率，这里可能会有质疑，我们知道信息量的大小和事件发生的概率成反比，函数形式为减函数，为什么要表现为对数形式呢？

这里我们需要了解信息量得三个性质：

1.事件发生的概率越低，信息量越大;

2.事件发生的概率越高，信息量越低;

3.多个事件同时发生的概率是多个事件概率相乘，总信息量是多个事件信息量相加。

根据性质3，可以知道使用对数形式可以满足性质需求，因此为表现该形式。

1.2 信息熵

信息量度量的是一个具体事件发生所带来的信息，而信息熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。

因此我们可以得到其表现公式为：

$H(X)=-\sum_{i=1}^{n}p(x_{i})log(p(x{_{i}}))$

其中P(x)表示为, 时间x的发生概率

总而言之，信息熵是用来衡量事物不确定性的。信息熵越大，事物越具不确定性，事物越复杂。

1.3 相对熵

相对熵（relative entropy），又被称为Kullback-Leibler散度（KL散度）或信息散度（information divergence），是两个概率分布（probability distribution）间差异的非对称性度量。在信息理论中，相对熵等价于两个概率分布的信息（Shannon entropy）的差值 。

可以理解为对于同一个随机变量x，有两个概率分布，判断这两个概率分布得差异。假设两个概率分布对应为p(x),q(x), 如何表示这两个分布得差异，我们可以使用信息熵判断，于是相对熵产生。

p(x)分布的信息熵为：

$H_{pp}(X)=-\sum_{i=1}^{n}p(x_{i})log(p(x{_{i}}))$

q(x)分布的信息熵为：

$H{_{pq}}(X)=-\sum_{i=1}^{n}p(x_{i})log(q(x{_{i}}))$

相对熵为：

$H_{pq}(X)-H_{pp}(X)$

p(x)为样本真实分布，q(x)为预测分布

于是得到相对熵（KL散度）公式为：

$D_{KL}(p||q)=H_{pq}(X)-H_{pp}(X)=-\sum_{i=1}^{n}p(x_{i})log(q(x{_{i}}))-[-\sum_{i=1}^{n}p(x_{i})log(p(x{_{i}}))]$

$D_{KL}(p||q)=\sum_{i=1}^{n}p(x_{i})log(p(x{_{i}}))-\sum_{i=1}^{n}p(x_{i})log(q(x{_{i}}))=\sum_{i=1}^{n}p(x_{i})log(\frac{p(x_{i})}{q(x^{_{i}})})$

KL散度越小，表示P(x) 与Q(x)的分布更加接近，可以通过反复训练Q (x)来使Q (x) 的分布逼近P(x)。

1.4 交叉熵

交叉熵的函数表示为：

$H(p,q)=-\sum_{i=1}^{n}p(x_{i})log(q(x{_{i}}))$

我们观察可以看出，这里与相对熵（KL散度）较为相似，个人认为交叉熵为相对熵（KL散度）的变体，由于我们进行模型训练，有监督训练，样本标签已经确定，相当于真实的概率的分布P(x)已经得知，因此这边的 $H(X)=-\sum_{i=1}^{n}p(x_{i})log(p(x{_{i}}))$ 为固定值，相当于常量。

在我们模型训练中：

$D_{KL}(p||q)=\sum_{i=1}^{n}p(x_{i})log(p(x{_{i}}))-\sum_{i=1}^{n}p(x_{i})log(q(x{_{i}}))$

相对熵（KL散度）变为：

$D_{KL}(p||q)=constant-\sum_{i=1}^{n}p(x_{i})log(q(x{_{i}}))$

对于其做为损失函数，常量可以忽略，因此得到了交叉熵的表现形式。

2. 交叉熵损失函数应用与实现

2.1 交叉熵损失函数二分类中应用

对于在二分类损失函数中应用，交叉熵损失函数为以下形式。

$L = -[y log \widehat{y} + (1-y)log(1-\widehat{y})]$

2.2 交叉熵损失函数实现

在具体在Python中的实现如下：

# tensorflow version
loss = tf.reduce_mean(-tf.reduce_sum(y_*tf.log(y), reduction_indices=[1]))
 
# numpy version
loss = np.mean(-np.sum(y_*np.log(y), axis=1))

# pytorch version
entroy=nn.CrossEntropyLoss()
output = entroy(input, target)