pytorch中log_softmax的实现

pytorch中的log_softmax 是怎么实现的？让你以后不再担心函数实现。

LawsonAbs

11770人浏览 · 2021-12-18 23:07:58

LawsonAbs · 2021-12-18 23:07:58 发布

0. 前言

文章来源：CSDN@LawsonAbs
log_softmax 是计算损失的时候常用的一个函数，那么这个函数的内部到底是怎么做到的呢？这里详细的解释一下。

1. 代码

写代码前，回忆一下log_softmax的公式 $-log\frac{exp(p_j)}{\sum_{i}exp(p_i)}$ ，其实就是 log + softmax。下面就来实现一下这个函数。

'''自己实现log_softmax 函数
（1）使用torch.exp()函数计算各个logit的e次幂
（2）使用torch.sum()函数计算求和
（3）使用torch.log对比例求对数
可以发现，二者最终的结果是相同的
'''
import torch as t
import torch.nn.functional as F
logit = t.tensor([0.1,0.1,0.1,0.7])
a = t.exp(logit)
print("a=",a)
b = t.sum(a,dim=0,keepdim=True)
print("b=",b)
c=t.log(a/b)
print(c)
print(F.log_softmax(logit))

执行结果：
在这里插入图片描述

2. 思考

尽管二者输出一致，但是二者实现过程是相同的吗？可以肯定的回答：不相同！
这里实现的log + softmax 还是有很多bug的，比如存在上溢出的风险，从而得到nan 的结果。 $\sum exp(x_i)$ 是很容易上溢出的，那么有什么办法解决这个问题呢？如下所述就是一种简单的方法，这里就不展开叙述了。
$\begin{aligned} log\_softmax &= log \frac{exp(x_j)}{\sum _i exp_(x_i)} \\ &= log \frac{exp(x_j)/exp(c)}{\sum _i exp_(x_i)/exp(c)} \\ &= log \frac{exp(x_j-c)}{\sum _i exp_(x_i-c)} \\ \end{aligned}$
其中 $c = max(x_i)$
我想说的只有一点：以后想用log_softmax的话，可以直接使用pytorch中的log_softmax()函数即可，如果想自己分开搞大概率会出错。