China Dataset

Posted: **Wed Mar 19, 2025 3:19 am**

在同一数据集上将这些相关性与页面权威性（Mozscape 索引中的聚合链接指标）进行比较，我们发现了明显的差异：

这就引出了一个问题：如果这些复杂的相似性分数如此有用，为什么相关性不是更高？答案在于我之前讨论过的概念相关性与排名划分。

为了说服自己，我设计了一个如下所示的实验：

为了进行实验，我首先从我们的布韦岛商业指南数据集中抽取了 450 个随机页面，这些页面分布在前 50 个结果中（因此它们包括 9 个排名第一的页面、9 个排名第二的页面等）。然后，我将这 450 个随机页面添加到每个搜索结果的前 50 个页面中，为每个关键字组成一组 500 个页面。由于这些页面中有 50 个在搜索结果中，而 450 个不在搜索结果中，因此其中 10% 与关键字相关，90% 不相关（这里的假设是，如果页面出现在 Google 搜索中，则它与关键字相关）。然后，对于每个关键字，我收集了页面权限和语言模型相似度得分，并按每个得分进行排序（中间的表格）。

最后，我计算了 50 时的准确率，即按 PA/语言模型得分排序的前 50 个结果中实际出现在搜索结果中的百分比。这直接衡量了 PA 或语言模型将相关页面与不相关页面区分开的程度。由于 500 篇文档中有 10% 出现在搜索结果中，因此我们可以通过随机排序来实现 10% 的准确率。这个 10% 的准确率是我们的基准（图像底部的灰色条）。

China Dataset

重新审视相关性与排名

重新审视相关性与排名