查询索引的SOLR文档 - 使用突出显示

时间:2014-11-17 15:47:25

标签: solr apache-tika

我在SOLR Tika和文档索引方面陷入两难境地。由于这是我第一次接触SOLR和Tika,我仍处于学习阶段。到目前为止,我得到了它的工作,并返回适当的结果突出显示。它按预期工作。

对我来说没有意义。每次我得到结果,我都会收到我使用的字段(id,name等等),我也会收到行为正常的亮点但我也收到了我真正不需要的内容字段。假设我上传并索引具有600kb文本的文件。我也得到包含文本的内容,这会减慢速度。我使用示例文件夹中包含的默认Schema.xls进行学习。

当我努力完成这项工作时,我对Schema.xml进行了这些更改(添加了这个xml)

 <copyField source="features" dest="text"/>
<fieldType name="features" class="solr.TextField" positionIncrementGap="100">
  <analyzer>
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.ManagedStopFilterFactory" managed="english" />
    <filter class="solr.ManagedSynonymFilterFactory" managed="english" />
  </analyzer>
</fieldType>

那个功能。

我以类似的方式将文档POST到SOLR,如TIKA网站所示:

curl "http://localhost:8983/solr/update/extract?literal.id=doc1&commit=true" -F  
"myfile=@tutorial.html"

我的方式是动态的,因为我根据文档名称确定了literal.id。但实质上它是相同的帖子。

我从SOLR获取这样的文件:

aws.instance:8983/solr/select?q=features:virus&hl.fragsize=50&hl=on&hl.fl=features&hl.maxAnalyzedChars=-1&hl.snippets=20&wt=json&indent=true

返回包含高亮显示的JSON对象。麻烦的是我也获得了内容属性,我不需要那个。

我正准备编写自己的Schema文件,并使用我使用的错误字段(功能)来解决此问题。

我做了这个工作,但我知道我做错了,事情是我看不到错误的方式

我知道必须有另一个查询才能获得精彩内容,而且我知道不应该使用这些功能,内容字段就足够了。

1 个答案:

答案 0 :(得分:1)

您可以通过提供the fl parameter&fl=id,name,etc来决定返回哪些字段。