为什么在主题建模中随机分割数据不是一个好方法?
假设MNIST典型示例:如果我让数字为0到8的火车和测试集中的数字为9(假设目前没有验证集),则我的模型将无法正确预测我的测试集中排名第9。
由于主题是有限的,所以是否不将用于主题建模的文章分开?我的模型如何预测尚未公开的主题?我不知道这是因为Google的这种解释,即随机分割并不总是一个好主意。
https://developers.google.com/machine-learning/data-prep/construct/sampling-splitting/example