Apache Nutch部分页面处理技巧

时间:2018-08-03 09:44:58

标签: solr web-crawler nutch nutch2

我已经用Hadoop / Hbase生态系统配置了Nutch 2.3.1。这个想法主要是对故事页面进行爬网和索引。为此,我准备了一些领域的种子。现在,我在Nutch中面临一些逻辑问题,即它的行为类似于域的所有级别。让我们举个例子。假设,在获取了几个域的主页之后,有一些文档实际上不是故事页面,而是某些部分,例如,新闻网站中有不同的新闻类别链接。如果用户单击类别(例如国家),则新页面将包含该类别的许多新闻。 Nutch抓取此页面,许多页面的某些文本作为其内容存储。时间过后,这些页面将更改(用于更新的新闻),如果将这些页面编入索引,则在搜索后如果用户转到该页面,则文本将更改。 Here只是示例页面。

我应如何以及在何处处理此类案件?我认为应该在Nutch的某个阶段对其进行处理,以便它应该获取此类页面,丰富其网址以继续前进,但不要为此类页面编制索引。 Nutch是否提供此选项,如果没有,可能的方法是什么?

1 个答案:

答案 0 :(得分:1)

您需要实现一个IndexingFilter,该索引将为您不想索引的页面返回null。

在Nutch 1.14中,您也许可以在URL上使用带有简单JEXL表达式的JexlIndexingFilter,但我认为这尚未移植到Nutch 2.x。

只要您知道要从索引中过滤掉的URL格式,编写这样的过滤器就应该很容易。