使用自动编码器进行文本分类的特征构造

时间:2014-06-11 09:19:25

标签: nlp text-classification autoencoder

自动编码器可用于减少特征向量中的维度 - 据我所知。在文本分类中,特征向量通常是通过字典构建的 - 字典往往非常大。我没有使用自动编码器的经验,所以我的问题是:

  1. 自动编码器是否可用于减少文本分类中的维度? (为什么?/为什么不呢?)
  2. 有没有人这样做过?如果是的话,来源会很好。

1 个答案:

答案 0 :(得分:3)

现有作品使用自动编码器在句子级别创建模型。基本上在使用Autoencode训练模型后,您可以获得句子的向量。由于任何文档都由句子组成,因此您可以获取文档的一组向量,并进行文档分类。根据我对各种矢量表示的经验(例如,从自动编码生成的那些),这样做可能会给出比用词袋分类更糟糕的答案。