如何在网站上找到sitemap.xml路径?

时间:2012-04-19 16:42:21

标签: web-crawler sitemap

如何找到网站的sitemap.xml文件?

e.g。转到stackoverflow / sitemap.xml会得到404.

在stackoverflow / robots.txt中写入以下内容:

“这在技术上是无效的,因为出于一些荒谬的理由 站点地图路径必须是ABSOLUTE而不是相对的。 站点地图:/sitemap.xml“

5 个答案:

答案 0 :(得分:90)

没有标准,所以无法保证。话虽如此,站点地图常见的是自我标记和根目录,如下所示:

example.com/sitemap.xml

案例在某些服务器上是敏感的,所以请记住这一点。如果不存在,请查看根目录上的漫游器文件:

example.com/robots.txt

如果您没有在漫游器文件中看到它,请前往Google并搜索:

site:example.com filetype:xml

这会将结果限制为目标域上的XML文件。此时它的反复试验和基于您正在使用的网站的细节。如果您从上面的Google搜索词组中获得了几页结果,请尝试进一步限制结果:

filetype:xml site:example.com inurl:sitemap

filetype:xml site:example.com inurl:products

如果您仍然找不到它,可以right-click > "View Source"并为Ctrl + F进行搜索(又名:“控制查找”或.xml)以查看是否有参考它在代码中。

答案 1 :(得分:17)

我认为站点地图的位置没有标准。这就是为什么在使用Google的网站管理员工具添加网站地图时,应该为网站地图指定任意网址的原因。

答案 2 :(得分:3)

站点地图的位置会影响它可以包含哪些网址,但是没有标准。这是一个很好的链接,有更多的解释:http://www.sitemaps.org/protocol.html#location

答案 3 :(得分:2)

根据protocol documentation,网站设计师可以使用至少三个选项将sitemap.xml位置告知搜索引擎:

  • 通过其提供的界面通知每个搜索引擎该位置
  • 将网址添加到robots.txt文件
  • 通过http
  • 向搜索引擎提交网址

因此,除非他们选择在robots.txt文件中发布站点地图位置,否则您无法真正知道他们将sitemap.xml文件放在何处。

答案 4 :(得分:1)

使用Google搜索运营商为您找到它

使用以下代码搜索Google。

  

inurl:domain.com文件类型:xml

将domain.com更改为您要查找站点地图的域。 这应该列出为给定域列出的所有xml文件。包括所有站点地图:)