Apache NUTCH,相关抓取

时间:2014-11-19 16:33:17

标签: apache web-crawler nutch

我正在使用Apache NUTCH 2.2.1抓取网站,它为我提供了索引SOLR的内容。当NUTCH获取内容时,有上下文信息,例如"联系我们","法律声明"或其他一些我不需要索引的无关信息(通常来自上层菜单,左侧菜单或页面页脚)。

其中一个解决方案是自动选择要索引的内容中最相关的部分,这可以通过自动摘要生成器完成。有一个插件" summary-basic",是否用于此目的?如果是这样,它是如何配置的?其他解决方案也欢迎。

1 个答案:

答案 0 :(得分:0)

在regex-urlfilter.txt中,您可以指定要忽略的网址列表。您可以在该正则表达式列表中指定“联系我们”的http链接(通常是您不想抓取的所有页眉,页脚信息等)。在抓取网页时,nutch会忽略这些网址,只会获取所需内容。你可以在apache-nutch-2.2.1 / conf文件夹下找到regex-urlfilter.txt