标签: solr nutch opennlp
尝试将完整句子索引为自己的字段。如果我在Nutch中执行句子拆分,使用OpenNLP或LingPipe之类的东西,我在哪里插入句子检测代码?在解析阶段还是在索引阶段?
答案 0 :(得分:0)
两个地方都需要一些修改。
nutch解析器会从已爬网内容中删除格式。因此,当内容存储在nutch段中时,换行符就消失了。您需要修改该部分。
默认情况下,nutch(其执行此操作的solr)会考虑单词而不是句子进行索引。所以你也必须在那里偷看。