应用错误收集

时间：2011-10-30 22:49:54

标签： search lucene indexing web-crawler nutch

我需要Nutch在保存抓取结果时将网页拆分为句子。原因是索尔在索引时将每个句子看作文档。

我需要的结果是能够搜索“一个单词”，并获得包含“一个”和/或“单词”的所有句子的列表。

我是Nutch的新手，所以一些指针确实很有用......

答案 0 :(得分：1)

是的，你可以查看Nutch的任务。

1）仅配置文件不能为您完成任务。见上文。

2）您需要编写自己的Parser插件，在抓取后挂钩到nutch解析阶段，将HTML页面拆分为句子并从单个页面返回N个结果。这很奇怪，因为通常一页是一个结果。查看FeedParser，了解如何从一个页面返回多个结果。

3）原则上，你可以遍历nutch提取的页面，获取文本，将它们分成句子并使用SOLR api将你的句子编入索引，就好像它们是文档一样。这甚至可以很容易地成为mapreduce工作。

作为一般参考，我建议您查看本文，将文本分成句子：