Python中余弦相似度的计算
在python中许多模块可以计算两个列表之间的余弦相似度,如scipy、numpy、sklearn等.
·
-
余弦相似度定义
余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度.
给定两个属性向量,和,其余弦相似性由点积和向量长度给出,如下所示:
在python中许多模块可以计算两个列表之间的余弦相似度,如scipy、numpy、sklearn等.
-
scipy
scipy中的scipy.spatial.distance.cosine函数可计算余弦距离,因此,我们可以用1减去余弦距离得到余弦相似度。
from scipy import spatial
a = [1, 2, 3, 4]
b = [5, 6, 7, 8]
res = 1 - spatial.distance.cosine(a, b)
-
numpy
numpy中的numpy.dot函数可以两个向量的点积,numpy.linalg.norm函数可以计算向量的欧氏距离(原函数为矩阵计算范数函数,具体方法详见用户104109121的文章)。因此,可以通过公式和这两个函数计算向量的余弦相似度。
from numpy import dot
from numpy.linalg import norm
a = [1, 2, 3, 4]
b = [5, 6, 7, 8]
res = dot(a, b) / (norm(a) * norm(b))
-
sklearn
sklearn中的sklearn.metrics.pairwise.cosine_similarity函数可直接计算出两个向量的余弦相似度
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])
res = cosine_similarity(a.reshape(1, -1), b.reshape(1, -1)) # reshape(1, -1)将矩阵转化成1行
更多推荐
已为社区贡献1条内容
所有评论(0)