$cover$

Python中余弦相似度的计算

在python中许多模块可以计算两个列表之间的余弦相似度，如scipy、numpy、sklearn等.

usrname0111

9636人浏览 · 2021-11-22 20:29:43

usrname0111 · 2021-11-22 20:29:43 发布

余弦相似度定义

余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度.

给定两个属性向量， $A$ 和 $B$ ，其余弦相似性 $\cos (\theta)$ 由点积和向量长度给出，如下所示：

$\text { similarity }=\cos (\theta)=\frac{A \cdot B}{\|A\|\|B\|}=\frac{\sum_{i=1}^{n} A_{i} \times B_{i}}{\sqrt{\sum_{i=1}^{n}\left(A_{i}\right)^{2}} \times \sqrt{\sum_{i=1}^{n}\left(B_{i}\right)^{2}}}$

在python中许多模块可以计算两个列表之间的余弦相似度，如scipy、numpy、sklearn等.

scipy

scipy中的scipy.spatial.distance.cosine函数可计算余弦距离，因此，我们可以用1减去余弦距离得到余弦相似度。

from scipy import spatial
a = [1, 2, 3, 4]
b = [5, 6, 7, 8]
res = 1 - spatial.distance.cosine(a, b)

numpy

numpy中的numpy.dot函数可以两个向量的点积，numpy.linalg.norm函数可以计算向量的欧氏距离（原函数为矩阵计算范数函数，具体方法详见用户104109121的文章）。因此，可以通过公式和这两个函数计算向量的余弦相似度。

from numpy import dot
from numpy.linalg import norm
a = [1, 2, 3, 4]
b = [5, 6, 7, 8]
res = dot(a, b) / (norm(a) * norm(b))

sklearn

sklearn中的sklearn.metrics.pairwise.cosine_similarity函数可直接计算出两个向量的余弦相似度

from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])
res = cosine_similarity(a.reshape(1, -1), b.reshape(1, -1)) # reshape(1, -1)将矩阵转化成1行