应用错误收集

使用自动编码器进行文本分类的特征构造

时间：2014-06-11 09:19:25

标签： nlp text-classification autoencoder

自动编码器可用于减少特征向量中的维度 - 据我所知。在文本分类中，特征向量通常是通过字典构建的 - 字典往往非常大。我没有使用自动编码器的经验，所以我的问题是：

自动编码器是否可用于减少文本分类中的维度？（为什么？/为什么不呢？）
有没有人这样做过？如果是的话，来源会很好。

1 个答案:

答案 0 :(得分：3)

现有作品使用自动编码器在句子级别创建模型。基本上在使用Autoencode训练模型后，您可以获得句子的向量。由于任何文档都由句子组成，因此您可以获取文档的一组向量，并进行文档分类。根据我对各种矢量表示的经验（例如，从自动编码生成的那些），这样做可能会给出比用词袋分类更糟糕的答案。