apache - Apache Nutch 2.3.1获取特定的MIME类型文档

URL过滤器仅适用于URL，这意味着您只能基于此进行断言。由于URL过滤器是在获取/解析文档之前执行的，因此没有可用于允许/阻止URL的mimetype。

还有一个问题，如果您指定要抓取特定的mimetype会发生什么，但在当前的抓取周期中，没有更多具有该mime类型的文档？然后，抓取将停止，直到您添加更多URL以进行爬网（手动），或者其他URL被提取。

通常的做法是抓取/解析所有内容并提取所有链接（您永远不知道何时会出现符合您要求的新链接）。然后只索引某些mime类型。

对于Nutch 2.x我担心目前没有这样做的机制。在Nutch 1.x上我们有两个：

您可以将这些选项中的任何一个移植到Nutch 2.x。