• 余弦相似度定义

余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度.

给定两个属性向量,AB,其余弦相似性\cos (\theta)由点积和向量长度给出,如下所示:

\text { similarity }=\cos (\theta)=\frac{A \cdot B}{\|A\|\|B\|}=\frac{\sum_{i=1}^{n} A_{i} \times B_{i}}{\sqrt{\sum_{i=1}^{n}\left(A_{i}\right)^{2}} \times \sqrt{\sum_{i=1}^{n}\left(B_{i}\right)^{2}}}

在python中许多模块可以计算两个列表之间的余弦相似度,如scipy、numpy、sklearn等.

  • scipy

scipy中的scipy.spatial.distance.cosine函数可计算余弦距离,因此,我们可以用1减去余弦距离得到余弦相似度。

from scipy import spatial
a = [1, 2, 3, 4]
b = [5, 6, 7, 8]
res = 1 - spatial.distance.cosine(a, b)
  • numpy

numpy中的numpy.dot函数可以两个向量的点积,numpy.linalg.norm函数可以计算向量的欧氏距离(原函数为矩阵计算范数函数,具体方法详见用户104109121的文章)。因此,可以通过公式和这两个函数计算向量的余弦相似度。

from numpy import dot
from numpy.linalg import norm
a = [1, 2, 3, 4]
b = [5, 6, 7, 8]
res = dot(a, b) / (norm(a) * norm(b))
  • sklearn

sklearn中的sklearn.metrics.pairwise.cosine_similarity函数可直接计算出两个向量的余弦相似度

from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])
res = cosine_similarity(a.reshape(1, -1), b.reshape(1, -1)) # reshape(1, -1)将矩阵转化成1行

原文指路:Python 中的余弦相似度 | D栈 - Delft Stack

Logo

华为开发者空间,是为全球开发者打造的专属开发空间,汇聚了华为优质开发资源及工具,致力于让每一位开发者拥有一台云主机,基于华为根生态开发、创新。

更多推荐