我在SOLR Tika和文档索引方面陷入两难境地。由于这是我第一次接触SOLR和Tika,我仍处于学习阶段。到目前为止,我得到了它的工作,并返回适当的结果突出显示。它按预期工作。
对我来说没有意义。每次我得到结果,我都会收到我使用的字段(id,name等等),我也会收到行为正常的亮点但我也收到了我真正不需要的内容字段。假设我上传并索引具有600kb文本的文件。我也得到包含文本的内容,这会减慢速度。我使用示例文件夹中包含的默认Schema.xls进行学习。
当我努力完成这项工作时,我对Schema.xml进行了这些更改(添加了这个xml)
<copyField source="features" dest="text"/>
<fieldType name="features" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.ManagedStopFilterFactory" managed="english" />
<filter class="solr.ManagedSynonymFilterFactory" managed="english" />
</analyzer>
</fieldType>
那个功能。
我以类似的方式将文档POST到SOLR,如TIKA网站所示:
curl "http://localhost:8983/solr/update/extract?literal.id=doc1&commit=true" -F
"myfile=@tutorial.html"
我的方式是动态的,因为我根据文档名称确定了literal.id。但实质上它是相同的帖子。
我从SOLR获取这样的文件:
aws.instance:8983/solr/select?q=features:virus&hl.fragsize=50&hl=on&hl.fl=features&hl.maxAnalyzedChars=-1&hl.snippets=20&wt=json&indent=true
返回包含高亮显示的JSON对象。麻烦的是我也获得了内容属性,我不需要那个。
我正准备编写自己的Schema文件,并使用我使用的错误字段(功能)来解决此问题。
我做了这个工作,但我知道我做错了,事情是我看不到错误的方式
我知道必须有另一个查询才能获得精彩内容,而且我知道不应该使用这些功能,内容字段就足够了。