如何获取solr 6.6.0中分析器创建的存储令牌列表

时间:2017-07-26 12:50:45

标签: solr luke

我上传文件以便在solr中编制索引它工作正常并且在luke的帮助下我可以获得solr创建的所有索引术语。

我的要求是获取分析器创建的令牌列表。就像我传递"这是简单的HTML文档" 然后,tokenizer会创建这样的标记:

[简单] [HTML] [文件] 即可。我希望这个列表可用于我的索引文档。

我怎么能得到这个。

谢谢

3 个答案:

答案 0 :(得分:1)

您可以尝试使用

  

术语向量组件(TVC)是一个设计用于的SearchComponent   返回有关设置时存储的文档的信息   字段上的termVector属性:

<field name="features" type="text" indexed="true" stored="true" multiValued="true" termVectors="true" termPositions="true" termOffsets="true"/>

solrconfig.xml中所需的更改

您需要在solr配置中启用TermVectorComponent(这已在示例solrconfig.xml中):

<searchComponent name="tvComponent" class="org.apache.solr.handler.component.TermVectorComponent"/>

使用此组件的RequestHandler配置可能如下所示:

<requestHandler name="tvrh" class="org.apache.solr.handler.component.SearchHandler">
        <lst name="defaults">
                <bool name="tv">true</bool>
        </lst>
        <arr name="last-components">
                <str>tvComponent</str>
        </arr>
</requestHandler>

更多信息:https://wiki.apache.org/solr/TermVectorComponent

答案 1 :(得分:0)

您可以在Solr Admin页面的分析选项卡中获取该信息

答案 2 :(得分:0)

有不同的方法可以实现这一目标:

1)如果您为感兴趣的字段启用了术语向量,则可以使用术语向量组件。

2)您可以浏览架构浏览器功能并查看索引标记

3)您可以使用luke来浏览每个文档/字段的索引标记

4)您可以使用分析工具即时运行分析