是否有一种快速简便的方法可以从Lucene索引中获取术语频率,而无需通过TermVectorFrequencies
类,因为这会花费大量时间来处理大型集合?
我的意思是,有TermEnum
这样的东西不仅有文件频率,还有术语频率吗?
更新: 使用TermDocs太慢了。
答案 0 :(得分:8)
使用TermDocs
获取给定文档的字词频率。与文档频率一样,您可以使用感兴趣的术语从IndexReader
获取术语文档。
在不失一些普遍性的情况下,你找不到比TermDocs
更快的方法。 TermDocs
直接从索引段中的“.frq”文件中读取,其中每个术语频率按文档顺序列出。
如果“太慢”,请确保您已优化索引以将多个细分合并为一个细分。按顺序迭代文档(跳过正常,但不能有效地在文档列表中来回跳转)。
您的下一步可能是进行额外处理,以创建一个更加专业化的文件结构,而不会遗漏SkipData
。就个人而言,我会寻找一个更好的算法来实现我的目标,或提供更好的硬件 - 大量的内存,要么持有RAMDirectory
,要么给操作系统在自己的文件缓存系统上使用。
答案 1 :(得分:2)
Lucene的trunk版本(最终为4.0)现在公开了来自TermsEnum的每个术语的totalTermFreq()。这是该术语在所有内容中出现的总次数(但是,与docFreq一样,不考虑删除)。
答案 2 :(得分:1)
TermDocs给出包含该术语的每个文档中给定术语的TF。您可以通过遍历每个<文档,频率>来获取DF。虽然TermEnums应该更快,但是对和计数对的数量。 IndexReader有一个termDocs(Term) method,它返回给定术语和索引的TermDocs。