我有字符串列表。 (相当大的id和字符串列表分散在4-5个大文件中。每个文件大约为GB)。这些字符串的格式如下:
1,高
2,你好,你好吗?
2,你好吗?
3,其中r?
3,这是什么意思
3,意味着什么
现在我想对这些字符串进行文本挖掘,并希望准备一个树形图,我希望以下列方式显示字符串
1喜
2-Hi How u u?
----How r u?
3 - 这是什么意思?
----what it means?
3 - 你在哪儿?
此输出基于对于特定人员的id(假设使用这些字符串的人员的ID)之后的逗号后面的字符串的相似性。如果其他人使用相同的单词,则应根据他使用的字符串进行分组。
现在,这似乎是一项简单的任务。但是我想在hadoop / Mahout上做这样的事情,或者可以在集群linux机器上支持大量数据的东西。 以及我应该如何解决这个问题。我已经在Mahout中尝试了不同的方法,其中我尝试创建序列文件和seq2sparse vectores,然后尝试进行聚类。但它对我不起作用。任何方向的帮助或指示都将是一个很大的帮助。
谢谢&问候, 阿图尔
答案 0 :(得分:2)
我认为你真正需要的是层次聚类。 Mahout提出了one implementation,其中一个也在Shogun Toolbox中实现(也是为大规模计算而设计的)。但很难保证它会起作用,因为输入似乎很难。