“行相似度”的输出对于每次运行是不同的

时间:2016-01-20 13:38:35

标签: mahout

Mahout:在下面提到的每个步骤中,行相似性过程的输出是不同的(保持所有输入的所有输入都相同)

Step1:seq2sparse(从文本创建向量) 第2步:rowid(生成tfidf向量) 第3步:行相似度(计算向量之间的相似度) Step4:seqdumper(二进制向量到文本)

更新:

感谢Pferrel的答复,
请建议我们如何指定“种子价值”

我使用的命令是: $ {MAHOUT_HOME} / bin / mahout seq2sparse -i $ {DATA} / seq-data -o $ {DATA} / vectors -n 2 -wt tfidf -ng 3 -nv -ow -md 100 -s 10

$ {MAHOUT_HOME} / bin / mahout rowid -i $ {DATA} / vectors / tfidf-vectors / part-r-00000 -o $ {DATA} / matrix

$ {MAHOUT_HOME} / bin / mahout rowsimilarity -i $ {DATA} / matrix / matrix -o $ {DATA} / similarity --similarityClassname SIMILARITY_COSINE -m 100 -ess -ow

1 个答案:

答案 0 :(得分:0)

数据被随机下采样,因此如果您想要重复性,请将种子设置为固定值。您还可以设置下采样以启用大量项目以禁用它,但请注意,这将使其运行速度变慢,速度将接近O(n ^ 2)。