mahout - seq2sparse没有创建向量

时间:2013-07-30 23:14:08

标签: cluster-analysis mahout

我有Twitter数据(用户名和他们的推文),我试图聚类。文本文件大小为151.7 MB。

  • 我将原始txt文本数据转换为mahout序列文件。

  • 我检查了这个序列文件,它充满了数据。它也是151.7 MB。

  • 我尝试将序列文件转换为稀疏向量。

此时出现了明显错误的问题。它声称成功,但它只创建大小为字节的矢量文件。我的TFIDF矢量文件只有90个字节,当原始的txt文件和序列文件都是151 MB时,这显然是错误的。

最让我困惑的是,我无法看到我所拥有的数据与“Mahout in Action”中的聚类示例中使用的路透数据集之间有何不同。他们都只是文字。

以下是我使用的确切命令:

---将原始文本txt文件转换为mahout序列文件。我还使用seqdumper检查了序列文件,它充满了用户名/推文数据。 ---

 sudo /opt/mahout/bin/mahout seqdirectory -c UTF-8 -i /home/efx/Desktop/tweetQueryOutput.txt -o /home/efx/Desktop/allNYCdataseqfiles

(检查序列文件,它充满了用户名/推文数据)

 sudo /opt/mahout/bin/mahout seqdumper -i /home/efx/Desktop/allNYCdataseqfiles/chunk-0 -o /home/efx/Desktop/allNYCdataseqfiles/sequenceDumperOutput

---然后尝试将序列文件转换为稀疏向量。 ---

 sudo /opt/mahout/bin/mahout seq2sparse -o /home/efx/Desktop/allNYC_DataVectors -i /home/efx/Desktop/allNYCdataseqfiles/ -seq

1 个答案:

答案 0 :(得分:0)

在Mahout 0.8 + cdh5.0.2下,您必须执行以下操作:

sudo /opt/mahout/bin/mahout seq2sparse 
-o /home/efx/Desktop/allNYC_DataVectors 
-i /home/efx/Desktop/allNYCdataseqfiles/
-seq
--maxDFPercent 100

--maDFPercent选项代表DF的最大文档百分比。它可用于删除真正高频率的术语。默认情况下,该值为99.但如果您也使用--maxDFSigma,它将覆盖此值。

这对我来说很好,但我不确定Mahout的0.7版本。