我正在使用Apache Mahout来矢量化和聚类一组体面的文档(~500k)。通过项目网站和Mahout in Action手册中的示例,我看到minLLR
seq2sparse
参数曾经使用了几次,但我不确定它是什么样的值它期望。是否有任何“起点”或方法来估算此参数的正确值?
答案 0 :(得分:2)
LLR值未正常化,因此我认为没有一个好的答案。答案取决于你想要多少修剪。 LLR值将随着语料库的大小线性增加(以及n-gram的数量)。默认值1.0是合理的,我只是建议您通过实验找到正确的值,然后根据输入的大小线性地将其缩放到其他输入。