使用Apache Nutch

时间:2016-02-11 14:44:08

标签: apache web-scraping html-parsing nutch

我尝试使用Apache Nutch获取多个URL的列表并解析其标题关键字和描述(并忽略所有其余的) 之后,我只想为每个URL保存所有标题,关键字和描述内容(最好没有标签本身)而不进行任何索引

我看了几个关于如何做到这一点的例子。只是我遇到的几个例子:

然而,他们都提出复杂的(至少对Nutch新手)插件配置和设置 由于我的用例听起来很常见,我想知道是否有更简单的解决方案?

由于

0 个答案:

没有答案