在Nutch中作为文件的句子

时间:2011-10-30 22:49:54

标签: search lucene indexing web-crawler nutch

我需要Nutch在保存抓取结果时将网页拆分为句子。原因是索尔在索引时将每个句子看作文档。

我需要的结果是能够搜索“一个单词”,并获得包含“一个”和/或“单词”的所有句子的列表。

我是Nutch的新手,所以一些指针确实很有用......

  1. 我应该查看Nutch配置文件吗?
  2. 我是否需要更改Nutch源代码?
  3. 或者我可以编写一个单独的应用程序,可以在Nutch完成抓取后编辑抓取结果吗?

1 个答案:

答案 0 :(得分:1)

是的,你可以查看Nutch的任务。

1)仅配置文件不能为您完成任务。见上文。

2)您需要编写自己的Parser插件,在抓取后挂钩到nutch解析阶段,将HTML页面拆分为句子并从单个页面返回N个结果。这很奇怪,因为通常一页是一个结果。查看FeedParser,了解如何从一个页面返回多个结果。

3)原则上,你可以遍历nutch提取的页面,获取文本,将它们分成句子并使用SOLR api将你的句子编入索引,就好像它们是文档一样。这甚至可以很容易地成为mapreduce工作。

作为一般参考,我建议您查看本文,将文本分成句子:

http://sujitpal.blogspot.com/2011/04/uima-sentence-annotator-using-opennlp.html