我正在使用IBM Watson Natural Language API扫描特定网页以确定关键字和类别。
但是我遇到了一些问题,其中一些网站的robots.txt设置为阻止网站扫描程序。
我正在直接与这些网站合作,他们将Watson代理字符串“watson-url-fetcher”添加到他们的robots.txt文件中。
结果是这只在某些时候起作用。
这个简化的robots.txt文件有效:
User-agent: *
Disallow: /
User-agent: watson-url-fetcher
Disallow: /manager/
但如果订单发生变化,Watson将不再有效: 重新排序的robots.txt失败:
User-agent: watson-url-fetcher
Disallow: /manager/
User-agent: *
Disallow: /
Watson然后返回错误代码: { “错误”:“请求获取被阻止:fetch_failed”, “代码”:400 }
这是Watson的错误,还是我需要指示网站始终将User-agent:*放在robots.txt文件的顶部?