我有一系列评论,每条评论都讨论一个主题。我想弄清楚这些评论中讨论的前m个主题。另外,我以在线方式收到这些评论(即我不能一次性得到整个评论,而是我必须逐个处理这些评论)。我想到使用Word2Vec进行特征提取,然后应用一些聚类算法,如k-means(聚类将对应一个主题),然后我可以从前m个聚类(其中包含最多点数)获得答案。但问题是我不知道集群的数量,而且在任何时候,不同主题(集群)的数量都没有修复,因为新评论可能会讨论一个新主题(所以,这个问题不能通过应用具有不同k值的k均值来解决。那么,我应该使用其他一些聚类算法(如DBSCAN),在这种情况下应采用什么方法,还是应该使用完全不同的方法?
答案 0 :(得分:1)
为什么你不能尝试一些简单的LDA并从大量的主题开始然后缩小它? https://radimrehurek.com/gensim/models/ldamodel.html
在类似的说明中,您可以查看sense2vec,他们使用reddit注释来构建主题模型https://explosion.ai/blog/sense2vec-with-spacy