Question

我在SOLR Tika和文档索引方面陷入两难境地。由于这是我第一次接触SOLR和Tika，我仍处于学习阶段。到目前为止，我得到了它的工作，并返回适当的结果突出显示。它按预期工作。

对我来说没有意义。每次我得到结果，我都会收到我使用的字段（id，name等等），我也会收到行为正常的亮点但我也收到了我真正不需要的内容字段。假设我上传并索引具有600kb文本的文件。我也得到包含文本的内容，这会减慢速度。我使用示例文件夹中包含的默认Schema.xls进行学习。

当我努力完成这项工作时，我对Schema.xml进行了这些更改（添加了这个xml）

 <copyField source="features" dest="text"/>
<fieldType name="features" class="solr.TextField" positionIncrementGap="100">
  <analyzer>
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.ManagedStopFilterFactory" managed="english" />
    <filter class="solr.ManagedSynonymFilterFactory" managed="english" />
  </analyzer>
</fieldType>

那个功能。

我以类似的方式将文档POST到SOLR，如TIKA网站所示：

curl "http://localhost:8983/solr/update/extract?literal.id=doc1&commit=true" -F  
"myfile=@tutorial.html"

我的方式是动态的，因为我根据文档名称确定了literal.id。但实质上它是相同的帖子。

我从SOLR获取这样的文件：

aws.instance:8983/solr/select?q=features:virus&hl.fragsize=50&hl=on&hl.fl=features&hl.maxAnalyzedChars=-1&hl.snippets=20&wt=json&indent=true

返回包含高亮显示的JSON对象。麻烦的是我也获得了内容属性，我不需要那个。

我正准备编写自己的Schema文件，并使用我使用的错误字段（功能）来解决此问题。

我做了这个工作，但我知道我做错了，事情是我看不到错误的方式

我知道必须有另一个查询才能获得精彩内容，而且我知道不应该使用这些功能，内容字段就足够了。

Answer 1

您可以通过提供the fl parameter：&fl=id,name,etc来决定返回哪些字段。

查询索引的SOLR文档 - 使用突出显示

1 个答案: