Rapidminer可以从特定的URL列表中提取XPath值吗?

时间:2014-04-28 19:59:50

标签: xpath web-scraping web-crawler rapidminer

我一直在玩Rapidminer并且似乎无法解决这个问题。我在excel文件中列出了一个庞大的URL列表,并希望从每个URL中提取单个XPath元素。无论如何我可以用Rapidminer做到这一点吗?

我已经看过Neil Mcguigan的教程,但他们似乎一般都是抓取网站/网站,而不是来自一组特定的网址。

1 个答案:

答案 0 :(得分:0)

您可能需要查看Apache NutchScrapy和类似的网络抓取工具。

您可能只是在寻找这项工作的错误工具:您希望从网站上搜索数据,而不是实际的"数据挖掘" (这更像是一种启发式统计分析)。

Nutch(Java)和Scrapy(Python)是用于开发自定义Web爬网程序和进行Web抓取的平台。