使用身份验证所需的查询创建XML站点地图

时间:2015-08-12 01:12:23

标签: html xml google-analytics web-crawler sitemap

我的任务是为Web爬虫创建一个xml站点地图。问题是,除非您同意这些条款,否则唯一可以查看的页面是家庭启动页面。现在有谷歌分析已经从这些页面发送数据,所以谷歌知道它们。我可以通过简单地将tos = true添加到查询字符串来绕过需要同意条款的用户。

我的问题是,我是否应该使用查询字符串将所有页面添加到站点地图中,以便机器人可以访问它们?或者我应该将页面添加到站点地图,即使机器人无法找到这些页面?

我有谷歌,并没有真正找到最好的做法包括或排除爬虫机器人无法立即访问的页面。

起初感觉我们不需要站点地图,但我们肯定希望并且已经对需要使用身份验证的页面进行了一些分析,因此在这种情况下,我最好不知道最佳做法。< / p>

1 个答案:

答案 0 :(得分:1)

您应该将它与查询一起添加,以便抓取工具可以找到它们,如果您不这样做,那么它们就无法访问您的XML文件,我想您尝试完成的是抓取工具访问XML文件。

在我看来,你应该添加查询,否则如果抓取工具无法访问它们,我就没有任何意义可以获得XML文件。

在这个link中,他们正在进行查询,这是来自站点地图自己的网站,此链接显示了使用站点地图时的另一个重要事项,那就是实体转义。如果链接格式正确,抓取工具只能理解这些链接。

http://www.sitemaps.org/protocol.html#submit_robots