主题建模-拆分数据(交叉验证)

时间:2018-12-12 04:09:22

标签: machine-learning deep-learning cross-validation natural-language-processing

为什么在主题建模中随机分割数据不是一个好方法?

假设MNIST典型示例:如果我让数字为0到8的火车和测试集中的数字为9(假设目前没有验证集),则我的模型将无法正确预测我的测试集中排名第9。

由于主题是有限的,所以是否不将用于主题建模的文章分开?我的模型如何预测尚未公开的主题?我不知道这是因为Google的这种解释,即随机分割并不总是一个好主意。

https://developers.google.com/machine-learning/data-prep/construct/sampling-splitting/example

0 个答案:

没有答案