作为一个项目的一部分,我试图慢慢地开始在Twitter推荐系统上工作,这需要我使用某种形式的深度学习。我的目标是根据包含未标记数据的推文的主题内容,推荐其他推文。
我已经对我的数据进行了预处理,并在doc2vec中训练了一些模型变体,以同时获得单词嵌入和文档嵌入。但是我的问题是,我对从这里去哪里感到有些迷茫。我已经读到doc2vec可用作更深层神经网络的输入,以进行LSTM或CNN等训练。
任何人都可以帮助我了解如何将这些文档嵌入(以及单词嵌入,我在DM模式下训练模型)用作输入,并且在这种情况下,神经网络的用途是什么,用于聚类?我知道这个问题有点开放性,但是我对这一切还是很陌生的,任何帮助都将不胜感激。
答案 0 :(得分:1)
如果您已为每个文档训练了一个d
维doc2vec,它将成为该特定推文的输入向量。如果您有n
个文档,它将成为n*d
维矩阵。现在,可以将此矩阵提供给神经网络。 LSTM和CNN模型都用于解决有监督的学习问题(已标记数据的地方)。
如果您没有标记数据,请进行无监督学习。群集在此之下!您可以运行不同的群集算法,并据此推荐。