应用错误收集

最近我正在研究文本挖掘项目。我的目标是根据评论的主题（内容）对它们进行聚类。

我自己根据以下条件尝试了一个模型：https://www.kaggle.com/liananapalkova/simply-about-word2vec。似乎创建单词向量肯定可以带我实现我的目标，我当时正在考虑使用doc2vec并创建代表每个注释的向量，并执行k均值和其他无监督的学习聚类技术（即，将其视为数字）。

然后，我查找了有关LDA的内容，发现使用很多子主题来描述文档（本例中的注释）也很有意义，最终，我将让LDA为我的每个主题分配一些主题。注释。

我的问题是：似乎word2vec / doc2vec使用一些标记来表示单词，而LDA使用一些主题来表示这些文档，它们听起来确实很相似！我可以将word2vec和LDA的技术结合在一起，以获得我的评论集群，同时为每个集群分配一些主题吗？

它如何工作？我正在看Kaggle，但找不到一些类似的项目...

LDA和Word2vec与聚类词的相似性

0 个答案: