IBM Watson NLU - robots.txt阻止了解

时间:2017-06-15 20:39:24

标签: watson watson-nlu

我正在使用IBM Watson Natural Language API扫描特定网页以确定关键字和类别。

但是我遇到了一些问题,其中一些网站的robots.txt设置为阻止网站扫描程序。

我正在直接与这些网站合作,他们将Watson代理字符串“watson-url-fetcher”添加到他们的robots.txt文件中。

结果是这只在某些时候起作用。

这个简化的robots.txt文件有效:

User-agent: *
Disallow: /
User-agent: watson-url-fetcher
Disallow: /manager/

但如果订单发生变化,Watson将不再有效: 重新排序的robots.txt失败:

User-agent: watson-url-fetcher
Disallow: /manager/
User-agent: *
Disallow: /

Watson然后返回错误代码: {   “错误”:“请求获取被阻止:fetch_failed”,   “代码”:400 }

这是Watson的错误,还是我需要指示网站始终将User-agent:*放在robots.txt文件的顶部?

0 个答案:

没有答案