我只是完全按照教程学习如何使用快速制作工具,而我无法弄清楚我做错了什么。我试过的一个教程是:http://auburnbigdata.blogspot.com/2013/04/web-crawling-with-rapidminer.html
我设置了抓取网络流程并将其连接到结果端口。我的参数如下:
url:http://auburnbigdata.blogspot.com
抓取规则:store_with_matching_url。+ auburnblogspot。+
follow_link_with_matching_url。+ auburnblogspot。+
将页面写入文件:已选中
将页面添加为属性:已选中
output_dir:C:\ Users \ Owen Capobianco \ Desktop \ Crawldata
扩展名:txt
最大页数:(空白)
最大深度:2
域名:网络
延迟:500
最大线程:1
用户代理:Mozilla / 5.0(Windows NT 6.1; WOW64)AppleWebKit / 537.36(KHTML,与Gecko一样)Chrome / 36.0.1985.125 Safari / 537.36
服从机器人排除:检查
我的Crawldata文件夹仍为空,没有结果。我确定我做了一些愚蠢的错误,因为这基本上是我第一次使用该软件。
感谢。
答案 0 :(得分:0)
似乎没有www.auburnblogspot.com形式的任何网站。尝试将正则表达式更改为.+auburnbigdata.+
之类的内容。