parserJob在Apache Nutch中的用处是什么?

时间:2017-11-21 17:07:38

标签: parsing nutch

我找不到任何有用的文档,比如注入器,生成器,fetcher和dbUpdater。 我需要了解它的作用。 我正在使用nutch 2.2.1

1 个答案:

答案 0 :(得分:1)

在两个版本中,1.x / 2.x解析引用相同的概念:从先前获取的网页中提取有用信息。

当然“有用”是一个非常广泛的术语。在更多Nutch聚焦视图中,这通常意味着运行所有解析过滤器插件(每个插件负责执行一个特定的工作)。例如,parse-metatags插件将提取特定(已配置)的元标记,并允许您将其存储在后端。默认情况下,Nutch只会尝试提取网页的文本内容以及标题,标题等其他信息。