rapidminer可以从URLS列表中提取xpath,而不是先保存HTML页面吗?

时间:2012-01-28 11:50:16

标签: xpath screen-scraping web-scraping data-mining rapidminer

我最近发现了RapidMiner,我对它的功能感到非常兴奋。但是我仍然不确定该程序是否可以帮助我满足我的特定需求。我希望程序从我用另一个程序生成的URL列表中抓取xpath匹配。 (它有更多的选项,然后是RapidMiner中的'抓取网页'操作符)

我见过Neil Mcguigan的以下教程:http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html。但我试图刮的网站有数千页,我不想把它们全部存放在我的电脑上。网络爬虫只是缺乏关键功能,所以我无法将它用于我的目的。有没有办法可以让它读取URLS,并从每个URL中抓取xpath?

我还看过其他用于从页面中提取html的工具,但由于我不是程序员,因此我无法弄清楚它们是如何工作的(甚至是安装的)。另一方面,Rapidminer易于安装,操作员描述有意义,但我无法以正确的顺序连接它们。

我需要一些投入来保持动力。我想知道我可以使用哪个运算符而不是'来自文件的处理文档'。我查看过'来自网络的流程文档'但它没有输入,它仍然需要抓取。非常感谢任何帮助。

期待您的回复。

2 个答案:

答案 0 :(得分:2)

使用RapidMiner在内部保存html页面的Web抓取过程分为两个步骤:

第1步:关注Neil McGuigan在http://vancouverdata.blogspot.com/2011/04/rapidminer-web-crawling-rapid-miner-web.html的视频,但有以下不同之处:

  • 而不是 Crawl Web 运算符使用 来自Web的处理文档 运营商。将无法指定输出 目录,因为结果将被加载到ExampleSet中。

ExampleSet将包含与抓取规则匹配的链接

Process Documents from Web main

第2步:关注http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html的视频,但仅限于7:40,但差异如下:

  • 提取信息 子流程放在之前创建的 Web文档中。

ExampleSet将包含与XPath查询匹配的链接和属性。

Extract Information sub

答案 1 :(得分:0)

我遇到了与你相同的问题,也许来自RapidMiner论坛的这些帖子会对你有所帮助: http://rapid-i.com/rapidforum/index.php/topic,2753.0.htmlhttp://rapid-i.com/rapidforum/index.php?topic=3851.0.html

见ya;)