应用错误收集

我正在使用IBM Watson Natural Language API扫描特定网页以确定关键字和类别。

但是我遇到了一些问题，其中一些网站的robots.txt设置为阻止网站扫描程序。

我正在直接与这些网站合作，他们将Watson代理字符串“watson-url-fetcher”添加到他们的robots.txt文件中。

结果是这只在某些时候起作用。

这个简化的robots.txt文件有效：

User-agent: *
Disallow: /
User-agent: watson-url-fetcher
Disallow: /manager/

但如果订单发生变化，Watson将不再有效：重新排序的robots.txt失败：

User-agent: watson-url-fetcher
Disallow: /manager/
User-agent: *
Disallow: /

Watson然后返回错误代码： { “错误”：“请求获取被阻止：fetch_failed”， “代码”：400 }

这是Watson的错误，还是我需要指示网站始终将User-agent：*放在robots.txt文件的顶部？