我已经通过Lucene 4.0.0实现了一个文字云,调用方法getHighFreqTerms()如下
TermStats[] termStats = HighFreqTerms.getHighFreqTerms(ir, HITS, "content");
我正试图找到一种方法来获得每个术语的起源。 这可能吗?我需要做什么? 我想到了一个解决方案,即每个文档每个术语获得一个频率值,同时在HashMap中存储术语,并将每个文档作为一个ArrayList值,但我坚信这是低效的。
你有什么建议吗?
非常感谢,
答案 0 :(得分:0)
HighFreqTerms仅为您提供有关索引的信息。如果您需要文档,则必须使用查询。