最近我参与了图像聚类,它发现了类似的图像并将它们组合在一起。我曾使用python的skimage
模块来计算SSIM,然后根据已确定的阈值对所有图像进行聚类。
我想对文字做类似的事情。我想创建包含类似文本的自动集群。例如,cluster-1可以包含代表职业母亲的所有文本,cluster-2可以包含代表人们谈论食物的所有文本等等。我知道这必须是无人监督的学习。我们有类似的python模块可以帮助完成这项任务吗?我还检查了谷歌的张量流,看看我是否可以从中获取一些东西,但在文档中没有找到与文本聚类有关的任何内容。
答案 0 :(得分:0)
您可以通过多种方式完成任务。在大多数情况下,聚类算法与图像聚类非常相似,但您需要定义的是距离度量 - 在这种情况下是semantic similarity某种度量标准。
为此,您可以使用我在另一个question around the topic of semantic similarity中列出的方法(即使更详细一点)。
值得一提的另一个方法是topical modelling工具提供的“自动群集”,您可以LSA使用gensim
包运行fairly easy。