两个相关问题:
Q1。我想找出核心字词大小(术语数量)一词。
我知道怎么做才能列出* .tim的文件大小。例如:
> du -ch *.tim | tail -1
1,3G total
但是如何将其转换为术语数量?即使粗略估计也足够了。
Q2。搜索中的典型技术是"修剪"删除所有罕见(极低频率)术语的索引。目标不是修剪索引的大小,而是修剪实际术语字典的大小。在SOLR中执行此操作的简单方法是什么,或者在SOLRj中以编程方式执行此操作?
更确切地说:我希望从现有索引(术语词典和索引中的所有其他位置)中删除这些术语(标记)。结果应该类似于1)将术语添加到停用词列表,2)重新索引整个集合,3)从停用词列表中删除术语。
答案 0 :(得分:1)
或者您可以使用Luke来查看Lucene索引。
答案 1 :(得分:1)