在草木设置中设置ROBOTSTXT_OBEY = True时,出现以下错误:
TypeError: to_bytes must receive a unicode, str or bytes object, got list
。
我尝试了多个网站,以查看robots.txt文件是否存在问题,但是所有网站都出现了相同的错误。即使对于谷歌
scrapy shell https://www.google.com/ --set="ROBOTSTXT_OBEY=True"
TypeError: to_bytes must receive a unicode, str or bytes object, got list
如何尊重robots.txt并使用scrapy进行爬网?
答案 0 :(得分:0)
找出问题所在。设置USER_AGENT后,出现错误。如果未设置USER_AGENT,则ROBOTSTXT_OBEY = True正常运行而没有错误。