应用错误收集

时间：2018-12-13 17:46:34

标签： machine-learning neural-network nlp word2vec doc2vec

作为一个项目的一部分，我试图慢慢地开始在Twitter推荐系统上工作，这需要我使用某种形式的深度学习。我的目标是根据包含未标记数据的推文的主题内容，推荐其他推文。

我已经对我的数据进行了预处理，并在doc2vec中训练了一些模型变体，以同时获得单词嵌入和文档嵌入。但是我的问题是，我对从这里去哪里感到有些迷茫。我已经读到doc2vec可用作更深层神经网络的输入，以进行LSTM或CNN等训练。

任何人都可以帮助我了解如何将这些文档嵌入（以及单词嵌入，我在DM模式下训练模型）用作输入，并且在这种情况下，神经网络的用途是什么，用于聚类？我知道这个问题有点开放性，但是我对这一切还是很陌生的，任何帮助都将不胜感激。

答案 0 :(得分：1)

如果您已为每个文档训练了一个d维doc2vec，它将成为该特定推文的输入向量。如果您有n个文档，它将成为n*d维矩阵。现在，可以将此矩阵提供给神经网络。 LSTM和CNN模型都用于解决有监督的学习问题（已标记数据的地方）。

如果您没有标记数据，请进行无监督学习。群集在此之下！您可以运行不同的群集算法，并据此推荐。