我们可以使用自动编码器来处理文本数据

时间:2015-11-19 03:14:28

标签: autoencoder

我正在做我的基于医疗保健的项目。我将训练我的自动编码器的症状和疾病,即我的输入是文本形式。那会有用吗? (我正在使用Rstudio)。请任何人帮助我这个

2 个答案:

答案 0 :(得分:5)

您必须将文本转换为矢量/数字。要做到这一点,像Bag of words,Tf-Idf这样的传统方法会有所帮助,但最新的神经词嵌入如 Word2Vec,RNN 语言模型等是获得文本数字表示的最佳技术。 请使用任何神经词嵌入技术并将文本(单词level[word2vec], document level[doc2vec]))转换为数字/向量。 现在这些向量带有一些维度,并将此表示压缩到更小的维度,您可以使用 AutoEncode r。 随意询问所需的任何其他信息。 尝试使用Python来完成这些任务,因为它有最新的软件包。

答案 1 :(得分:0)

您可以按照here中所述对文本数据使用自动编码器。

自动编码器通常在图像数据上效果更好,但是最近的方法改变了自动编码器,使其在文本数据上也很不错。

看看this

该代码也在GitHub中提供。