语义聚类

时间:2015-12-28 10:30:22

标签: python nltk similarity wordnet

我正在寻找有关如何找到与单个概念相关的术语集的建议。

目标是改进标签或关键字搜索,以描述描述概念或过程或情境的图像。图像可以描述头脑风暴会议或特定主题。这些旨在用于PowerPoint或其他演示材料的图像具有用户贡献的标签。

问题是我们基于标签的搜索可能会带回完全不相关的图像。我们的目标是在标签内找到集群,以优化与中心概念相关的标签,并删除与集群无关的异常值。

例如,如果你有一个标签会议,计划,头脑风暴和圆桌会议。理想情况下,我们希望从群集中删除圆桌,因为它不适合主题。

我使用过WordNet相似性,但结果很奇怪。我想知道在python的NLTK中是否还有其他工具可以帮助我解决这个问题。

谢谢!

1 个答案:

答案 0 :(得分:1)

您的问题基于“主题建模”区域,您可以使用: gensim https://radimrehurek.com/gensim/ 或者lda https://pypi.python.org/pypi/lda