如何从评级中制作Mahout稀疏向量?

时间:2013-04-02 00:08:32

标签: mahout arff

从文本中创建Mahout Vector对象an example。它说:

  

在创建向量之前,您需要将文档转换为SequenceFile格式。 SequenceFile是一个hadoop类,它允许我们在其中编写任意键,值对。 DocumentVectorizer要求密钥是具有唯一的Text   文档ID,以及UTF-8格式的文本内容。

这有点清楚,因为我知道SequenceFile是什么。然而,对于所有Mahout算法(聚类,分类......),内容实际上是一袋词(或n-gram)。该值是否以空格分隔?

更重要的是,我实际上想要聚集不是文本的东西。例如,假设我有用户以空格分隔格式评级电影:

user1 movie_11 5
user1 movie_12 4
..
user2 movie_21 1
user2 movie_22 5
..

假设我想要群集电影。我可以将用户视为“文档”(电影分组),以及像“单词”这样的电影。我如何将这些评级纳入矢量文件?我可以将它转换为arff(不确定到底是怎么回事)并使用Mahout的arff.vector。是否有一个更简单的实用程序,只需要采用文档到单词的关联(或计数)并生成向量?

将磁盘上的1亿个评级作为ARFF放入序列文件只是为了将其放入矢量中,这样会很方便。

0 个答案:

没有答案