标签: machine-learning nlp recurrent-neural-network
假设我有一个文本分类问题,它的训练集很小,大约有2000个句子作为训练示例,大约有130个班级。
我的模型包括:
假设所有超参数调整都正确,但是我仍然有很高的方差(大约15%的dev误差),可以将嵌入大小减小到50d并更改为uni-GRU有助于减少方差吗?
对此我不太确定,因为从技术上减少特征的数量和模型大小可以帮助减少差异,但是我不确定这是否也适用于预训练的嵌入大小和RNN的方向。