我想使用solr索引pdf,word文档。单词/ pdf文档的全部内容将出现在搜索响应中以及突出显示的片段中。内容很长,我希望在搜索响应中避免它,因为内容长度。
是否可以仅获取内容字段的突出显示片段?
这是搜索查询
http://localhost:8080/solr4x/collection1/select?q=Scripting&wt=xml&hl=true&hl.fl=content
这是架构
<field name="content" type="text_general" indexed="false" stored="true"multiValued="true"/>
<field name="text" type="text_general" indexed="true" stored="false" multiValued="true"/>
<copyField source="content" dest="text"/>
我正在使用solr 4.3
答案 0 :(得分:1)
我建议在查询中添加&amp; hl.fragsize = 100 (片段大小)。默认情况下应该是100,但我不确定为什么它会为您提取全部内容。必须查看你的solrconfig.xml。
尝试将搜索查询更改为:
http://localhost:8080/solr4x/collection1/select?q=Scripting&wt=xml&hl=true&hl.fl=content&hl.fragsize=100
以下是有关fragsize的文档:http://wiki.apache.org/solr/HighlightingParameters#hl.fragsize
答案 1 :(得分:0)
您可以在请求中指定要返回的字段:
http://localhost:8080/solr4x/collection1/select?q=Scripting&wt=xml&hl=true&hl.fl=content&fl=text
或者您无法存储内容字段(虽然不确定既不存储也不编制索引的字段的有用性):
<field name="content" type="text_general" indexed="false" stored="false" multiValued="true"/>