Mahout:使用java对包含文档的文件夹进行矢量化

时间:2014-05-19 14:54:00

标签: java hadoop mahout

经过大量的谷歌搜索后,我恐怕找不到将目录中的文本文件转换为输出目录中的矢量的方法,所以我可以再运行LDA聚类。

我所有人都被发现处理linux shell脚本。

因为我正在使用Windows我无法运行shell脚本,我也想避免使用cygwin。所以实际上,我只能使用java api。

我正在使用mahout 0.9。

1 个答案:

答案 0 :(得分:0)

您可以使用Mahout-Integration包中的SequenceFilesFromDirectory作业从目录创建序列文件。

然后,您可以使用Mahout-MapReduce-Legacy包中的SparseVectorsFromSequenceFiles作业(0.9中的Mahout-Core包)创建Mahout稀疏向量。

这些是seqdirectory和seq2sparse的驱动程序,其参数可以在这里找到:mahout.apache.org/users/basics/creating-vectors-from-text.html