我需要Nutch在保存抓取结果时将网页拆分为句子。原因是索尔在索引时将每个句子看作文档。
我需要的结果是能够搜索“一个单词”,并获得包含“一个”和/或“单词”的所有句子的列表。
我是Nutch的新手,所以一些指针确实很有用......
答案 0 :(得分:1)
是的,你可以查看Nutch的任务。
1)仅配置文件不能为您完成任务。见上文。
2)您需要编写自己的Parser插件,在抓取后挂钩到nutch解析阶段,将HTML页面拆分为句子并从单个页面返回N个结果。这很奇怪,因为通常一页是一个结果。查看FeedParser,了解如何从一个页面返回多个结果。
3)原则上,你可以遍历nutch提取的页面,获取文本,将它们分成句子并使用SOLR api将你的句子编入索引,就好像它们是文档一样。这甚至可以很容易地成为mapreduce工作。
作为一般参考,我建议您查看本文,将文本分成句子:
http://sujitpal.blogspot.com/2011/04/uima-sentence-annotator-using-opennlp.html