应用错误收集

使用Apache Nutch

时间：2016-02-11 14:44:08

标签： apache web-scraping html-parsing nutch

我尝试使用Apache Nutch获取多个URL的列表并解析其标题关键字和描述（并忽略所有其余的）之后，我只想为每个URL保存所有标题，关键字和描述内容（最好没有标签本身）而不进行任何索引

我看了几个关于如何做到这一点的例子。只是我遇到的几个例子：

然而，他们都提出复杂的（至少对Nutch新手）插件配置和设置由于我的用例听起来很常见，我想知道是否有更简单的解决方案？

由于

0 个答案:

没有答案