文本挖掘巨大的字符串列表

时间:2011-09-04 22:46:20

标签: hadoop data-mining text-mining mahout

我有字符串列表。 (相当大的id和字符串列表分散在4-5个大文件中。每个文件大约为GB)。这些字符串的格式如下:

1,高

2,你好,你好吗?

2,你好吗?

3,其中r?

3,这是什么意思

3,意味着什么

现在我想对这些字符串进行文本挖掘,并希望准备一个树形图,我希望以下列方式显示字符串

1喜

2-Hi How u u?

 ----How r u?

3 - 这是什么意思?

 ----what it means?

3 - 你在哪儿?

此输出基于对于特定人员的id(假设使用这些字符串的人员的ID)之后的逗号后面的字符串的相似性。如果其他人使用相同的单词,则应根据他使用的字符串进行分组。

现在,这似乎是一项简单的任务。但是我想在hadoop / Mahout上做这样的事情,或者可以在集群linux机器上支持大量数据的东西。 以及我应该如何解决这个问题。我已经在Mahout中尝试了不同的方法,其中我尝试创建序列文件和seq2sparse vectores,然后尝试进行聚类。但它对我不起作用。任何方向的帮助或指示都将是一个很大的帮助。

谢谢&问候, 阿图尔

1 个答案:

答案 0 :(得分:2)

我认为你真正需要的是层次聚类。 Mahout提出了one implementation,其中一个也在Shogun Toolbox中实现(也是为大规模计算而设计的)。但很难保证它会起作用,因为输入似乎很难。