我已经读过主题建模最常用的技术(从文本中提取可能的主题)是Latent Dirichlet分配(LDA)。
然而,我感兴趣的是,尝试使用Word2Vec进行主题建模是一个好主意,因为它会在向量空间中聚集单词。因此,不能将集群视为主题吗?
您认为为了某些研究而采用这种方法是否有意义?最后我感兴趣的是根据主题从文本中提取关键字。
答案 0 :(得分:9)
您可能需要查看以下文章:
Dat Quoc Nguyen,Richard Billingsley,Lan Du和Mark Johnson。 2015年。Improving Topic Models with Latent Feature Word Representations。计算语言学协会的交易,第一卷。 3,第299-313页。 [CODE]
杨柳,刘志远,蔡达生,孙茂松2015年。Topical Word Embeddings。在第29届AAAI人工智能会议的会议记录中,2418-2424。 [CODE]第一篇论文将词嵌入集成到LDA模型和每个文档的一个主题DMM模型中。它报告了主题一致性,文档聚类和文档分类任务的重大改进,特别是在小型语料库或短文本(例如推文)上。
第二篇论文也很有趣。它使用LDA为每个单词分配主题,然后使用Word2Vec根据单词及其主题学习单词嵌入。
答案 1 :(得分:3)
有两个人试图解决这个问题。
StichFix的Chris Moody推出了LDA2Vec,CMU的一些博士生写了一篇名为"高斯LDA的论文,用于Word嵌入的主题模型"使用code here ...虽然我无法在那里获得Java代码来输出合理的结果。它是一个有趣的想法,使用word2vec与高斯(实际上你计算出数学时的T分布)单词主题分布。高斯LDA应该能够处理训练中的词汇单词。LDA2Vec尝试同时训练LDA模型和单词向量,并且它还允许您将LDA先验放在非单词上以获得真正有趣的结果。
答案 2 :(得分:0)
在Word2Vec中,考虑3个句子
“狗看见了一只猫”,
“狗追着猫”,
“猫爬上一棵树”
在这里我们提供输入单词' cat'然后我们将输出单词作为'攀爬'
它基于所有单词给出上下文单词(cat)的概率。它是一个连续的单词模型。我们将根据上下文得到类似于输入单词的单词。 Word2Vec仅适用于庞大的数据集。
LDA用于从语料库中抽象主题。它不是基于背景。因为它使用Dirichlet分布在主题上绘制单词并在文档上绘制主题。我们在这里遇到的问题是随机性。我们每次都得到不同的输出。
我们选择的技术取决于我们的要求。