标签: apache web-scraping html-parsing nutch
我尝试使用Apache Nutch获取多个URL的列表并解析其标题关键字和描述(并忽略所有其余的) 之后,我只想为每个URL保存所有标题,关键字和描述内容(最好没有标签本身)而不进行任何索引
我看了几个关于如何做到这一点的例子。只是我遇到的几个例子:
然而,他们都提出复杂的(至少对Nutch新手)插件配置和设置 由于我的用例听起来很常见,我想知道是否有更简单的解决方案?
由于