Nutch / Solr索引句子 - 解析器插件或索引插件?

时间:2012-04-21 05:50:37

标签: solr nutch opennlp

尝试将完整句子索引为自己的字段。如果我在Nutch中执行句子拆分,使用OpenNLP或LingPipe之类的东西,我在哪里插入句子检测代码?在解析阶段还是在索引阶段?

1 个答案:

答案 0 :(得分:0)

两个地方都需要一些修改。

nutch解析器会从已爬网内容中删除格式。因此,当内容存储在nutch段中时,换行符就消失了。您需要修改该部分。

默认情况下,nutch(其执行此操作的solr)会考虑单词而不是句子进行索引。所以你也必须在那里偷看。