应用错误收集

Rapid Miner不保存抓取网页结果

时间：2016-04-18 05:32:52

标签： web web-crawler rapidminer mining

我正试图从IMDB网站抓取对特定电影评论的评论。为此，我使用爬网，我已嵌入内部循环，因为有74页。

附件是配置图像。请帮忙。我严重陷入困境。

抓取网站的网址是：http：//www.imdb.com/title/tt0454876/reviews？start =％{pagePos}

1 个答案:

答案 0 :(得分：0)

当我尝试它时，我得到403 forbidden错误，因为IMDB服务认为我是机器人。将Loop与Crawl Web一起使用是不好的做法，因为Loop运算符没有实现任何等待。

此过程可以简化为Crawl Web运算符。关键参数是：

网址 - 将其设置为http://www.imdb.com/title/tt0454876
max pages - 将其设置为79或您需要的任何数字
最大页面大小 - 将此值设置为1000
抓取规则 - 将这些规则设置为您指定的规则
输出目录 - 选择用于存储内容的文件夹

这是有效的，因为抓取操作符将计算出与规则匹配的所有可能的URL，并存储那些也匹配的URL。访问将延迟1000毫秒（延迟参数），以避免在服务器上触发机器人排除。

希望这能让你成为一个开始。