Apache Nutch 2.3.1获取特定的MIME类型文档

时间:2018-03-15 08:51:34

标签: apache web-crawler nutch mime-filter nutch2

我已经使用hadoop / hbase生态系统配置了Apache Nutch 2.3.1。我必须抓取特定文档,即仅包含文本内容的文档。我找到了regex-urlfilter.txt来排除MIME但找不到任何选项来指定我想要抓取的MIME。 regex-url过滤器中的问题是可能有许多MIME类型会随着时间的推移而增加。所以很难包含所有内容?有没有办法可以指示Nutch取得文本/ html文档。

1 个答案:

答案 0 :(得分:1)

URL过滤器仅适用于URL,这意味着您只能基于此进行断言。由于URL过滤器是在获取/解析文档之前执行的,因此没有可用于允许/阻止URL的mimetype。

还有一个问题,如果您指定要抓取特定的mimetype会发生什么,但在当前的抓取周期中,没有更多具有该mime类型的文档?然后,抓取将停止,直到您添加更多URL以进行爬网(手动),或者其他URL被提取。

通常的做法是抓取/解析所有内容并提取所有链接(您永远不知道何时会出现符合您要求的新链接)。然后只索引某些mime类型。

对于Nutch 2.x我担心目前没有这样做的机制。在Nutch 1.x上我们有两个:

您可以将这些选项中的任何一个移植到Nutch 2.x。