应用错误收集

我已经用Hadoop / Hbase生态系统配置了Nutch 2.3.1。这个想法主要是对故事页面进行爬网和索引。为此，我准备了一些领域的种子。现在，我在Nutch中面临一些逻辑问题，即它的行为类似于域的所有级别。让我们举个例子。假设，在获取了几个域的主页之后，有一些文档实际上不是故事页面，而是某些部分，例如，新闻网站中有不同的新闻类别链接。如果用户单击类别（例如国家），则新页面将包含该类别的许多新闻。 Nutch抓取此页面，许多页面的某些文本作为其内容存储。时间过后，这些页面将更改（用于更新的新闻），如果将这些页面编入索引，则在搜索后如果用户转到该页面，则文本将更改。 Here只是示例页面。

我应如何以及在何处处理此类案件？我认为应该在Nutch的某个阶段对其进行处理，以便它应该获取此类页面，丰富其网址以继续前进，但不要为此类页面编制索引。 Nutch是否提供此选项，如果没有，可能的方法是什么？

Apache Nutch部分页面处理技巧

1 个答案: