应用错误收集

使用Apache Mahout矢量化文档 - MinLLR参数

时间：2011-07-14 12:44:28

标签： java apache mahout

我正在使用Apache Mahout来矢量化和聚类一组体面的文档（~500k）。通过项目网站和Mahout in Action手册中的示例，我看到minLLR seq2sparse参数曾经使用了几次，但我不确定它是什么样的值它期望。是否有任何“起点”或方法来估算此参数的正确值？

1 个答案:

答案 0 :(得分：2)

LLR值未正常化，因此我认为没有一个好的答案。答案取决于你想要多少修剪。 LLR值将随着语料库的大小线性增加（以及n-gram的数量）。默认值1.0是合理的，我只是建议您通过实验找到正确的值，然后根据输入的大小线性地将其缩放到其他输入。