使用Apache Mahout矢量化文档 - MinLLR参数

时间:2011-07-14 12:44:28

标签: java apache mahout

我正在使用Apache Mahout来矢量化和聚类一组体面的文档(~500k)。通过项目网站和Mahout in Action手册中的示例,我看到minLLR seq2sparse参数曾经使用了几次,但我不确定它是什么样的值它期望。是否有任何“起点”或方法来估算此参数的正确值?

1 个答案:

答案 0 :(得分:2)

LLR值未正常化,因此我认为没有一个好的答案。答案取决于你想要多少修剪。 LLR值将随着语料库的大小线性增加(以及n-gram的数量)。默认值1.0是合理的,我只是建议您通过实验找到正确的值,然后根据输入的大小线性地将其缩放到其他输入。