Rapid Miner不保存抓取网页结果

时间:2016-04-18 05:32:52

标签: web web-crawler rapidminer mining

我正试图从IMDB网站抓取对特定电影评论的评论。为此,我使用爬网,我已嵌入内部循环,因为有74页。

附件是配置图像。请帮忙。我严重陷入困境。

抓取网站的网址是:http://www.imdb.com/title/tt0454876/reviews?start =%{pagePos}

enter image description here

1 个答案:

答案 0 :(得分:0)

当我尝试它时,我得到403 forbidden错误,因为IMDB服务认为我是机器人。将LoopCrawl Web一起使用是不好的做法,因为Loop运算符没有实现任何等待。

此过程可以简化为Crawl Web运算符。关键参数是:

  • 网址 - 将其设置为http://www.imdb.com/title/tt0454876
  • max pages - 将其设置为79或您需要的任何数字
  • 最大页面大小 - 将此值设置为1000
  • 抓取规则 - 将这些规则设置为您指定的规则
  • 输出目录 - 选择用于存储内容的文件夹

这是有效的,因为抓取操作符将计算出与规则匹配的所有可能的URL,并存储那些也匹配的URL。访问将延迟1000毫秒(延迟参数),以避免在服务器上触发机器人排除。

希望这能让你成为一个开始。