我上传文件以便在solr中编制索引它工作正常并且在luke的帮助下我可以获得solr创建的所有索引术语。
我的要求是获取分析器创建的令牌列表。就像我传递"这是简单的HTML文档" 然后,tokenizer会创建这样的标记:
[简单] [HTML] [文件] 即可。我希望这个列表可用于我的索引文档。
我怎么能得到这个。
谢谢
答案 0 :(得分:1)
您可以尝试使用
术语向量组件(TVC)是一个设计用于的SearchComponent 返回有关设置时存储的文档的信息 字段上的termVector属性:
<field name="features" type="text" indexed="true" stored="true" multiValued="true" termVectors="true" termPositions="true" termOffsets="true"/>
solrconfig.xml中所需的更改
您需要在solr配置中启用TermVectorComponent(这已在示例solrconfig.xml中):
<searchComponent name="tvComponent" class="org.apache.solr.handler.component.TermVectorComponent"/>
使用此组件的RequestHandler配置可能如下所示:
<requestHandler name="tvrh" class="org.apache.solr.handler.component.SearchHandler">
<lst name="defaults">
<bool name="tv">true</bool>
</lst>
<arr name="last-components">
<str>tvComponent</str>
</arr>
</requestHandler>
答案 1 :(得分:0)
您可以在Solr Admin页面的分析选项卡中获取该信息
答案 2 :(得分:0)
有不同的方法可以实现这一目标:
1)如果您为感兴趣的字段启用了术语向量,则可以使用术语向量组件。
2)您可以浏览架构浏览器功能并查看索引标记
3)您可以使用luke来浏览每个文档/字段的索引标记
4)您可以使用分析工具即时运行分析