我真的需要帮助来解决我的问题。
我有一个错误:
"[scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.islam.gov.my/robots.txt> (referer: None)"
当我尝试运行scrapy crawl my_scraper -o ehadith.csv
答案 0 :(得分:0)
这不是错误。这是一个调试级别的日志,告诉您蜘蛛网已成功下载域的robots.txt
文件。
您遇到的另一个问题是403回复。尝试使用AutoThrottle扩展名来减少请求并发。