基于索引的文本聚类

时间:2018-03-23 10:39:39

标签: python r machine-learning nlp text-mining

目前我正在开发projet来集群2百万个文本备忘录。我的目标是为这些备忘录创建一个标准(实际上,当我说备忘录时,我指的是包含某些内容描述的文本)。为此,我希望首先对类似的备忘录进行集群(收集可能具有相同含义的备忘录),然后为每个集群或组创建标签。

由于我是NLP的新手,我想知道如何继续这样做以及之前已经完成的一些参考/材料和类似项目是什么?

我敢打赌这是NLP中的一个经典问题,很多项目都是针对这个问题做的。

我可以使用R和Python

1 个答案:

答案 0 :(得分:0)

在非结构化数据中查找隐藏的主题,如文本,准确地表示文档,称为主题建模。

Gensim是一个很棒的图书馆,您可以使用它找到类似主题的备忘录。它具有在python中实现的LSA和LDA算法。 LSA和LDA之间的区别在于它们的实现。 LSA是一种在线学习算法,这意味着如果数据的性质发生变化,它将重新定位。

topicmodels是实现LDA的R包。以下是LDA的快速教程。