你知道es是如何计算相似度得分的吗？

你知道es是如何计算相似度得分的吗？1.es中相似度计算公式-BM256.x版本和7.x 版本的es的默认得分计算方式都是BM25。假如用户给定一个输入QQQ，其包含了关键字q1,q2,......qn,q_1,q_2,... ... q_n,q1,q2,......qn,那么该输入QQQ与文档DDD的BM25得分为：score⁡(D,Q)=∑i=1nIDF⁡(qi)⋅f(qi,D)⋅(k1

丘文波

4909人浏览 · 2022-01-19 15:59:54

丘文波 · 2022-01-19 15:59:54 发布

1.es中相似度计算公式-BM25

6.x版本和7.x 版本的es的默认得分计算方式都是BM25。

假如用户给定一个输入 $Q$ ，其包含了关键字 $q_1,q_2,... ... q_n,$ 那么该输入 $Q$ 与文档 $D$ 的BM25得分为：

$\operatorname{score}(D, Q)=\sum_{i=1}^{n} \operatorname{IDF}\left(q_{i}\right) \cdot \frac{f\left(q_{i}, D\right) \cdot\left(k_{1}+1\right)}{f\left(q_{i}, D\right)+k_{1} \cdot\left(1-b+b \cdot \frac{|D|}{\operatorname{avgdl}}\right)}$

参数说明如下：

$s c o r e (D, Q)$ : 表示用户输入Q与文档D的相关性得分
$IDF(q_i)$ : 关键字 $q_i$ 的逆文档频值， $\operatorname{IDF}\left(q_{i}\right)=\ln \left(\frac{N-n\left(q_{i}\right)+0.5}{n\left(q_{i}\right)+0.5}+1\right)$
$f(q_i,D)$ : 关键词 $q_i$ 在文档D中的频数
N ：全部文档的个数
$n(q_i)$ : 包含关键字 $q_i$ 所有文档的个数
$a v g d l$ ：文档平均token个数，全部文档包含的token个数总和除以总文档数
$∣ D ∣$ ：文档D包含的token的个数
$k 1$ ：超参数，该值越小大词频的词对整体得分的贡献就会越会被抑制，默认值是1.2
b：超参数，该值越大，包含相同多关键词 $q_i$ 情况下，文档得分越短得分越高，若该值为0，b的默认值是0.75

为了了解一下超参数k1的对最终得分的影响，假定b=0，然后观察一下公式： $\frac{f\left(q_{i}, D\right) \cdot\left(k_{1}+1\right)}{f\left(q_{i}, D\right)+k_{1} \cdot\left(1-b+b \cdot \frac{|D|}{\operatorname{avgdl}}\right)}$ 值的变化

即 $\frac{f\left(q_{i}, D\right) \cdot\left(k_{1}+1\right)}{f\left(q_{i}, D\right)+k_{1} }$ 值的变化：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YKV5a8fn-1642578889247)(%E5%85%B3%E4%BA%8Ees%E6%98%AF%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E7%9B%B8%E4%BC%BC%E5%BA%A6%E5%BE%97%E5%88%86%E7%9A%84%2046434b09ef1f4271987d374017945cba/Image_2.png)]

从上图可以看出，k1值越小，随着关键词 $q_i$ 的词频 $f(q_i,D)$ 增加，对于 $\frac{f\left(q_{i}, D\right) \cdot\left(k_{1}+1\right)}{f\left(q_{i}, D\right)+k_{1} }$ 的增幅越小。

2.查看es的得分计算过程

当使用es进全文查询时，es会计算出每一个返回文档的相关得分“_score”。

在查询的时候，通过设置“ “explain”: true ”来让给出相关得分计算的过程解释。

举个例子：首先在es中创建一个索引，并写入数据，用户输入“PPT小工具”并开启相关得分解释设置

POST nlu-pro-44-94/_search
{
  "explain": true,
  "_source":["similary_query"],
  "query": {
    "match": {
      "similary_query": "PPT小工具"
    }
  }
}

es返回的结果是：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5mjhNgMq-1642578889249)(%E5%85%B3%E4%BA%8Ees%E6%98%AF%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E7%9B%B8%E4%BC%BC%E5%BA%A6%E5%BE%97%E5%88%86%E7%9A%84%2046434b09ef1f4271987d374017945cba/Untitled.png)]

由于7.x 版本的es默认相关得分计算公式是BM25， $\operatorname{score}(D, Q)=\sum_{i=1}^{n} \operatorname{IDF}\left(q_{i}\right) \cdot \frac{f\left(q_{i}, D\right) \cdot\left(k_{1}+1\right)}{f\left(q_{i}, D\right)+k_{1} \cdot\left(1-b+b \cdot \frac{|D|}{\operatorname{avgdl}}\right)}$

下面具体来看一下"_explanation"部分的内容。

"_explanation"部分也是基于上述公式进行计算的，首先找到用户输入与文档的所有匹配token，然后计算每一个匹配token的得分，然后再求和。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fcejmmyQ-1642578889250)(%E5%85%B3%E4%BA%8Ees%E6%98%AF%E5%A6%82%E4%BD%95%E8%AE%A1%E7%AE%97%E7%9B%B8%E4%BC%BC%E5%BA%A6%E5%BE%97%E5%88%86%E7%9A%84%2046434b09ef1f4271987d374017945cba/Untitled%201.png)]