我有一个Lucene索引,文档文本是“已索引”但没有“存储”。
我正在使用Luke v7.6.0,非常适合“可视化”索引。
很显然,因为我的文档文本已建立索引但未存储,所以我无法复制或查询“存储的”值(没有值),但是我可以以某种方式将已索引的文本值提取到剪贴板或文本文件中,以使我能够准确分析从我的文件中索引的内容?
答案 0 :(得分:2)
您可以使用的一项功能-手动检查Lucene index files。
我怀疑最重要的是术语词典文件(* .tim)
我已经索引了没有存储值和术语的文档-字段电子邮件中的test@test.com
(带有 Standard 分析器的 TextField )和电子邮件中的John
字段名称( StringField )
在此之后,我使用十六进制编辑器打开了tim文件,并能够看到如下内容:
您可以清楚地看到Standard 1标记的test, test, com
的值,而且您还可以看到John仍然保持不变,因为我使用了 StringField 。在其他示例中,我也看到了下套管的工作。
提醒您,如果您想重复一遍-默认情况下,对于小索引,Lucene会将所有内容都放入复合文件中,对于此特定的调试,我不希望这样做。您可以通过setUseCompoundFile(false)
禁用它