目前我正在开发projet来集群2百万个文本备忘录。我的目标是为这些备忘录创建一个标准(实际上,当我说备忘录时,我指的是包含某些内容描述的文本)。为此,我希望首先对类似的备忘录进行集群(收集可能具有相同含义的备忘录),然后为每个集群或组创建标签。
由于我是NLP的新手,我想知道如何继续这样做以及之前已经完成的一些参考/材料和类似项目是什么?
我敢打赌这是NLP中的一个经典问题,很多项目都是针对这个问题做的。
我可以使用R和Python
答案 0 :(得分:0)
在非结构化数据中查找隐藏的主题,如文本,准确地表示文档,称为主题建模。
Gensim是一个很棒的图书馆,您可以使用它找到类似主题的备忘录。它具有在python中实现的LSA和LDA算法。 LSA和LDA之间的区别在于它们的实现。 LSA是一种在线学习算法,这意味着如果数据的性质发生变化,它将重新定位。
topicmodels是实现LDA的R包。以下是LDA的快速教程。