Question

我有字符串列表。（相当大的id和字符串列表分散在4-5个大文件中。每个文件大约为GB）。这些字符串的格式如下：

1，高

2，你好，你好吗？

2，你好吗？

3，其中r？

3，这是什么意思

3，意味着什么

现在我想对这些字符串进行文本挖掘，并希望准备一个树形图，我希望以下列方式显示字符串

1喜

2-Hi How u u？

 ----How r u?

3 - 这是什么意思？

 ----what it means?

3 - 你在哪儿？

此输出基于对于特定人员的id（假设使用这些字符串的人员的ID）之后的逗号后面的字符串的相似性。如果其他人使用相同的单词，则应根据他使用的字符串进行分组。

现在，这似乎是一项简单的任务。但是我想在hadoop / Mahout上做这样的事情，或者可以在集群linux机器上支持大量数据的东西。以及我应该如何解决这个问题。我已经在Mahout中尝试了不同的方法，其中我尝试创建序列文件和seq2sparse vectores，然后尝试进行聚类。但它对我不起作用。任何方向的帮助或指示都将是一个很大的帮助。

谢谢＆amp;问候，阿图尔

Answer 1

我认为你真正需要的是层次聚类。 Mahout提出了one implementation，其中一个也在Shogun Toolbox中实现（也是为大规模计算而设计的）。但很难保证它会起作用，因为输入似乎很难。

文本挖掘巨大的字符串列表

1 个答案: