javascript - 网络抓取工具是否遵循robots.txt网址或标记 - Thinbug

网络抓取工具是否遵循robots.txt网址或标记

时间：2017-01-23 02:05:56

标签： javascript url-rewriting web-crawler robots.txt

我有一个基于javascript的网站。具体来说，没有<a>标签。单击某些按钮时，内容将动态插入DOM树中，然后使用javascript更改URL以表示更新。

所以，我的问题是，如果我的robots.txt中有链接列表，那么允许的网络抓取工具（Google，Bing等）是否可以直接访问robots.txt中的链接，或者是按照下载网站中提供的a链接，并在robots.txt？

中允许

因为在第二种情况下，网络抓取工具在下载的/网站和robots.txt文件中都找不到任何网址。

1 个答案:

答案 0 :(得分：1)

您可以使用Sitemaps为抓取工具提供网址列表。正如@Barmar所提到的，robots.txt的目的略有不同。