我一直在玩Rapidminer并且似乎无法解决这个问题。我在excel文件中列出了一个庞大的URL列表,并希望从每个URL中提取单个XPath元素。无论如何我可以用Rapidminer做到这一点吗?
我已经看过Neil Mcguigan的教程,但他们似乎一般都是抓取网站/网站,而不是来自一组特定的网址。
答案 0 :(得分:0)
您可能需要查看Apache Nutch,Scrapy和类似的网络抓取工具。
您可能只是在寻找这项工作的错误工具:您希望从网站上搜索数据,而不是实际的"数据挖掘" (这更像是一种启发式统计分析)。