最近我正在研究文本挖掘项目。我的目标是根据评论的主题(内容)对它们进行聚类。
我自己根据以下条件尝试了一个模型:https://www.kaggle.com/liananapalkova/simply-about-word2vec。似乎创建单词向量肯定可以带我实现我的目标,我当时正在考虑使用doc2vec并创建代表每个注释的向量,并执行k均值和其他无监督的学习聚类技术(即,将其视为数字)。
然后,我查找了有关LDA的内容,发现使用很多子主题来描述文档(本例中的注释)也很有意义,最终,我将让LDA为我的每个主题分配一些主题。注释。
我的问题是:似乎word2vec / doc2vec使用一些标记来表示单词,而LDA使用一些主题来表示这些文档,它们听起来确实很相似!我可以将word2vec和LDA的技术结合在一起,以获得我的评论集群,同时为每个集群分配一些主题吗?
它如何工作?我正在看Kaggle,但找不到一些类似的项目...