应用错误收集

创建包含类似文本

时间：2018-06-11 15:38:07

标签： python machine-learning text-analysis unsupervised-learning

最近我参与了图像聚类，它发现了类似的图像并将它们组合在一起。我曾使用python的skimage模块来计算SSIM，然后根据已确定的阈值对所有图像进行聚类。

我想对文字做类似的事情。我想创建包含类似文本的自动集群。例如，cluster-1可以包含代表职业母亲的所有文本，cluster-2可以包含代表人们谈论食物的所有文本等等。我知道这必须是无人监督的学习。我们有类似的python模块可以帮助完成这项任务吗？我还检查了谷歌的张量流，看看我是否可以从中获取一些东西，但在文档中没有找到与文本聚类有关的任何内容。

1 个答案:

答案 0 :(得分：0)

您可以通过多种方式完成任务。在大多数情况下，聚类算法与图像聚类非常相似，但您需要定义的是距离度量 - 在这种情况下是semantic similarity某种度量标准。

为此，您可以使用我在另一个question around the topic of semantic similarity中列出的方法（即使更详细一点）。

值得一提的另一个方法是topical modelling工具提供的“自动群集”，您可以LSA使用gensim包运行fairly easy。