应用错误收集

时间：2018-03-23 10:39:39

标签： python r machine-learning nlp text-mining

目前我正在开发projet来集群2百万个文本备忘录。我的目标是为这些备忘录创建一个标准（实际上，当我说备忘录时，我指的是包含某些内容描述的文本）。为此，我希望首先对类似的备忘录进行集群（收集可能具有相同含义的备忘录），然后为每个集群或组创建标签。

由于我是NLP的新手，我想知道如何继续这样做以及之前已经完成的一些参考/材料和类似项目是什么？

我敢打赌这是NLP中的一个经典问题，很多项目都是针对这个问题做的。

我可以使用R和Python

答案 0 :(得分：0)

在非结构化数据中查找隐藏的主题，如文本，准确地表示文档，称为主题建模。

Gensim是一个很棒的图书馆，您可以使用它找到类似主题的备忘录。它具有在python中实现的LSA和LDA算法。 LSA和LDA之间的区别在于它们的实现。 LSA是一种在线学习算法，这意味着如果数据的性质发生变化，它将重新定位。

topicmodels是实现LDA的R包。以下是LDA的快速教程。