我正在为一个项目的简单机器人工作,我注意到,很多站点的robot.txt文件中没有站点地图。当然可以选择简单地索引相关网站并抓取所有可能的网页,但这通常比简单地下载网站地图需要更多的时间。
如果在robots.txt中没有提到站点地图,最好的方法是什么?
答案 0 :(得分:1)
通常它应该放在像xydomain.xyz / sitemap.xml这样的域的根目录中。
我只会将站点地图添加到机器人文件中,如果它放在其他位置。如果某个网站使用位于其他地方的多个网站地图,则应在index map中注明。
答案 1 :(得分:1)
您可以使用此online tool扫描您的网站,并为您的网站创建一个定制的sitemap.xlm文件。
为了帮助您通过robot.txt发现站点地图,请在您的robot.txt文件的最顶部添加站点地图的网址(参见下面的示例)。
因此,robots.txt文件如下所示:
Sitemap: http://www.example.com/sitemap.xml
User-agent:*
Disallow: