重新审视相关性与排名

Singapore Data Forum highlights advancements in data-driven solutions
Post Reply
rh2759830
Posts: 49
Joined: Tue Jan 07, 2025 4:42 am

重新审视相关性与排名

Post by rh2759830 »

可以看出,语言模型方法表现最佳,平均 Spearman 相关性为 0.10,与研究文献中发表的结果一致。

如果我们首先对查询和文档进行一些词干提取并重新计算,相关性会全面略有增加:


这表明谷歌在其相关性计算中确实做了某种类型的词汇规范化或词干提取。

在同一数据集上将这些相关性与页面权威性(Mozscape 索引中的聚合链接指标)进行比较,我们发现了明显的差异:


这就引出了一个问题:如果这些复杂 印度手机号码 的相似性分数如此有用,为什么相关性不是更高?答案在于我之前讨论过的概念相关性与排名划分。

为了说服自己,我设计了一个如下所示的实验:


为了进行实验,我首先从我们的数据集中抽取了 450 个随机页面,这些页面分布在前 50 个结果中(因此它们包括 9 个排名第一的页面、9 个排名第二的页面等)。然后,我将这 450 个随机页面添加到每个搜索结果的前 50 个页面中,为每个关键字组成一组 500 个页面。由于这些页面中有 50 个在搜索结果中,而 450 个不在搜索结果中,因此其中 10% 与关键字相关,90% 不相关(这里的假设是,如果页面出现在 Google 搜索中,则它与关键字相关)。然后,对于每个关键字,我收集了页面权限和语言模型相似度得分,并按每个得分进行排序(中间的表格)。

最后,我计算了 50 时的准确率,即按 PA/语言模型得分排序的前 50 个结果中实际出现在搜索结果中的百分比。这直接衡量了 PA 或语言模型将相关页面与不相关页面区分开的程度。由于 500 篇文档中有 10% 出现在搜索结果中,因此我们可以通过随机排序来实现 10% 的准确率。这个 10% 的准确率是我们的基准(图像底部的灰色条)。
Post Reply