将词嵌入与LDA中的主题词分布结合使用以进行文本汇总

时间:2019-03-11 17:20:05

标签: nlp word2vec lda summarization

我是NLP的新手,我想知道通过考虑从Word2Vec检索到的词嵌入和主题词分布来总结已经通过LDA等方法归类为某个主题的文档是否是一个好主意它已经生成,以提出一个句子评分算法。这听起来是创建文档摘要的好方法吗?

1 个答案:

答案 0 :(得分:0)

我想向您推荐这个post

您可以在GoogleFacebook中使用经过预训练的Word2Vec模型,而不是在步骤4上使用“跳过思想的编码器”(请查看FastTest文档以了解如何解析第二个模型或选择其他语言。

通常,您将执行以下步骤:

  1. 清除文字(删除数字,但保留标点符号)。
  2. 语言检测(定义和删除停用词,并使用适当版本的Word2Vec模型)。
  3. 句子标记化(之后您可以删除标点符号)。
  4. 令牌编码(使用所选的Word2Vec模型)。
  5. 使用Kmeans聚集获得的标记(您应指定簇数-它将等于将来摘要中的句子数)。
  6. 获取摘要(摘要中的一句话是一个类的中间句子,有关更多详细信息和代码示例,请查看原始文章)。

我希望它会有所帮助。祝好运! :)