应用错误收集

Apache NUTCH，相关抓取

时间：2014-11-19 16:33:17

标签： apache web-crawler nutch

我正在使用Apache NUTCH 2.2.1抓取网站，它为我提供了索引SOLR的内容。当NUTCH获取内容时，有上下文信息，例如＆＃34;联系我们＆＃34;，＆＃34;法律声明＆＃34;或其他一些我不需要索引的无关信息（通常来自上层菜单，左侧菜单或页面页脚）。

其中一个解决方案是自动选择要索引的内容中最相关的部分，这可以通过自动摘要生成器完成。有一个插件＆＃34; summary-basic＆＃34;，是否用于此目的？如果是这样，它是如何配置的？其他解决方案也欢迎。

1 个答案:

答案 0 :(得分：0)

在regex-urlfilter.txt中，您可以指定要忽略的网址列表。您可以在该正则表达式列表中指定“联系我们”的http链接（通常是您不想抓取的所有页眉，页脚信息等）。在抓取网页时，nutch会忽略这些网址，只会获取所需内容。你可以在apache-nutch-2.2.1 / conf文件夹下找到regex-urlfilter.txt