我正试图从IMDB网站抓取对特定电影评论的评论。为此,我使用爬网,我已嵌入内部循环,因为有74页。
附件是配置图像。请帮忙。我严重陷入困境。
抓取网站的网址是:http://www.imdb.com/title/tt0454876/reviews?start =%{pagePos}
答案 0 :(得分:0)
当我尝试它时,我得到403 forbidden
错误,因为IMDB服务认为我是机器人。将Loop
与Crawl Web
一起使用是不好的做法,因为Loop
运算符没有实现任何等待。
此过程可以简化为Crawl Web
运算符。关键参数是:
这是有效的,因为抓取操作符将计算出与规则匹配的所有可能的URL,并存储那些也匹配的URL。访问将延迟1000毫秒(延迟参数),以避免在服务器上触发机器人排除。
希望这能让你成为一个开始。