网络抓取工具是否遵循robots.txt网址或标记

时间:2017-01-23 02:05:56

标签: javascript url-rewriting web-crawler robots.txt

我有一个基于javascript的网站。具体来说,没有<a>标签。单击某些按钮时,内容将动态插入DOM树中,然后使用javascript更改URL以表示更新。

所以,我的问题是,如果我的robots.txt中有链接列表,那么允许的网络抓取工具(Google,Bing等)是否可以直接访问robots.txt中的链接,或者是按照下载网站中提供的a链接,并在robots.txt

中允许

因为在第二种情况下,网络抓取工具在下载的/网站和robots.txt文件中都找不到任何网址。

1 个答案:

答案 0 :(得分:1)

您可以使用Sitemaps为抓取工具提供网址列表。正如@Barmar所提到的,robots.txt的目的略有不同。