使用Solr返回网页摘要

时间:2012-04-04 08:00:42

标签: solr nutch

我已成功使用Nutch抓取网站,并尝试使用Solr作为索引器/搜索器返回突出显示的摘要。所以,如果我查询“海洋”,那么我想从仅包含该查询词的网页文本(不是标题或网址)返回20-30字的摘要。

我已将Nutch schema.xml复制为我的Solr schema.xml。

所以我有两个问题: 1. Nutch schema.xml中的“content”字段是网页正文元素的字段吗? 2.如果未存储此字段,是否有办法让Solr在搜索时检索该字段,以便突出显示该字段?

1 个答案:

答案 0 :(得分:1)

  1. 我很长一段时间没有使用过Nutch,但我认为假设“内容”是你要突出显示的字段是非常安全的。

  2. 您需要存储该字段才能使用突出显示,如果您想使用FastVectorHighlighting,则需要为该字段启用以下属性:termVectors,termPositions和termOffsets。

  3. 如果您使用FVH,您还可以在Solr 3.5及更高版本中使用boundaryScanner。