研究 Google DOM 并寻找解决方案

Solve china dataset issues with shared expertise and innovation.
Post Reply
fomayof928@mowline
Posts: 348
Joined: Sun Dec 22, 2024 4:02 am

研究 Google DOM 并寻找解决方案

Post by fomayof928@mowline »

但为什么会发生这种情况呢?根据我们的服务提供商Cookiebot的说法,搜索引擎爬虫通过模拟完全同意来访问网站。因此,它们访问所有内容,并且不会被复制爬网程序从 Cookie 同意横幅编入索引。

那么为什么迁移的页面不是这样呢?我们使用各种用户代理抓取并渲染了页面,但仍然无法在源代码中找到 cookie 机器人的踪迹。


迁移页面提供来自内容和插件的动态数据。插件 印度电报数据库 仅包含 JavaScript 代码,有时它们来自合作伙伴。其中一个插件是 Cookie Manager Partner,它从我们的代码库外部获取 cookie 同意 HTML。这就是为什么我们首先在 HTML 源文件中没有发现 cookie 同意 HTML 代码的痕迹。我们看到了一个大 DOM,但又看到了 Nuxt 默认的、更复杂的大 DOM。 Nuxt 是我们使用的 JavaScript 框架。

为了验证 Google 是否正在读取 cookie 同意横幅中的副本,我们使用了 Google Search Console 的 URL 检查工具。我们将迁移页面的 DOM 与非迁移页面的 DOM 进行比较。在迁移后的页面的DOM中,我们最终找到了cookie同意内容:

在传输页面的 DOM 中我们发现了 cookie 同意内容
其他引起我们注意的是旧页面上加载的 JavaScript 文件与迁移页面上加载的文件。我们的网站有两个由第三方提供的 cookie 同意横幅脚本:一个用于显示横幅并获得同意 (uc),另一个用于导入横幅内容 (cd)。

我们的旧页面仅加载脚本uc.js,该脚本负责cookie 同意横幅。这是我们在每个页面上都需要的脚本来处理用户同意。它显示 cookie 同意横幅,而不对内容进行索引,并保存用户的决定(如果他们同意或不同意使用 cookie)。
Post Reply