降低维度GLoVE向量并从bi-GRU切换到uni-GRU应该减少过度拟合

时间:2019-05-20 18:48:27

标签: machine-learning nlp recurrent-neural-network

假设我有一个文本分类问题,它的训练集很小,大约有2000个句子作为训练示例,大约有130个班级。

我的模型包括:

  1. 100d GloVe嵌入输入
  2. 归一化和辍学
  3. 1层bi-GRU
  4. 退出
  5. 致密层(用于分类)

假设所有超参数调整都正确,但是我仍然有很高的方差(大约15%的dev误差),可以将嵌入大小减小到50d并更改为uni-GRU有助于减少方差吗?

对此我不太确定,因为从技术上减少特征的数量和模型大小可以帮助减少差异,但是我不确定这是否也适用于预训练的嵌入大小和RNN的方向。

0 个答案:

没有答案