标签: python web-crawler robots.txt
我制作了一个简单的python网络爬网程序,在小型网站上可以正常工作,但我想在较大的网页(您知道的网页超过50个)上进行尝试。但是在抓取页面期间,它出现了错误“ HTTP错误403:禁止访问”。我认为这是由于网站中的robots.txt导致您无法抓取此页面而我的程序停止了。我检查了网站,它允许网站的大部分,但不允许其中的一些。有人可以给我一个如何避免的想法,如果可能的话? (我应该只选择一个允许所有页面的网站)