应用错误收集

我们可以使用自动编码器来处理文本数据

时间：2015-11-19 03:14:28

标签： autoencoder

我正在做我的基于医疗保健的项目。我将训练我的自动编码器的症状和疾病，即我的输入是文本形式。那会有用吗？（我正在使用Rstudio）。请任何人帮助我这个

2 个答案:

答案 0 :(得分：5)

您必须将文本转换为矢量/数字。要做到这一点，像Bag of words，Tf-Idf这样的传统方法会有所帮助，但最新的神经词嵌入如 Word2Vec，RNN 语言模型等是获得文本数字表示的最佳技术。请使用任何神经词嵌入技术并将文本（单词level[word2vec], document level[doc2vec])）转换为数字/向量。现在这些向量带有一些维度，并将此表示压缩到更小的维度，您可以使用 AutoEncode r。随意询问所需的任何其他信息。尝试使用Python来完成这些任务，因为它有最新的软件包。

答案 1 :(得分：0)

您可以按照here中所述对文本数据使用自动编码器。

自动编码器通常在图像数据上效果更好，但是最近的方法改变了自动编码器，使其在文本数据上也很不错。

看看this。

该代码也在GitHub中提供。