答案 0 :(得分:5)
这是一个有效的robots.txt - 但您在文本文件的开头有UTF-8 BOM (\xef\xbb\xbf)。这就是为什么“用户”旁边有一个红点的原因。在第一行。此标记告诉浏览器和文本编辑器将文件解释为UTF-8,而robots.txt则只使用ASCII字符。
将您的文本文件转换为ASCII,错误将消失。或者复制红点后的所有内容并尝试再次粘贴。
我在实时版本上对此进行了测试,这里是从字节格式转换的结果:
\xef\xbb\xbfUser-agent: *\r\nDisallow: /en/news/iranology/\r\nDisallow:
/en/tours-services/tour-the-soul-of-iran\r\nDisallow:
/en/tours-services/tour-a-whistle-stop-tour\r\nDisallow: /en/to
您可以在开头清楚地看到BOM。浏览器和文本编辑器会忽略它,但它可能会使爬虫能够解析robots.txt。您可以使用此python脚本测试实时版本:
import urllib.request
text = urllib.request.urlopen('http://www.best-iran-trip.com/robots.txt')
print(repr(text.read()))
如果您能够安装Notepad++,它实际上有一个编码菜单,可让您以任何格式保存它。
答案 1 :(得分:0)