Rapidminer 6.0.008不保存Web爬网结果

时间:2014-07-23 15:41:41

标签: web-crawler rapidminer

我只是完全按照教程学习如何使用快速制作工具,而我无法弄清楚我做错了什么。我试过的一个教程是:http://auburnbigdata.blogspot.com/2013/04/web-crawling-with-rapidminer.html

我设置了抓取网络流程并将其连接到结果端口。我的参数如下:

url:http://auburnbigdata.blogspot.com

抓取规则:store_with_matching_url。+ auburnblogspot。+

follow_link_with_matching_url。+ auburnblogspot。+

将页面写入文件:已选中

将页面添加为属性:已选中

output_dir:C:\ Users \ Owen Capobianco \ Desktop \ Crawldata

扩展名:txt

最大页数:(空白)

最大深度:2

域名:网络

延迟:500

最大线程:1

用户代理:Mozilla / 5.0(Windows NT 6.1; WOW64)AppleWebKit / 537.36(KHTML,与Gecko一样)Chrome / 36.0.1985.125 Safari / 537.36

服从机器人排除:检查

我的Crawldata文件夹仍为空,没有结果。我确定我做了一些愚蠢的错误,因为这基本上是我第一次使用该软件。

感谢。

1 个答案:

答案 0 :(得分:0)

似乎没有www.auburnblogspot.com形式的任何网站。尝试将正则表达式更改为.+auburnbigdata.+之类的内容。