应用错误收集

主题建模-拆分数据（交叉验证）

时间：2018-12-12 04:09:22

标签： machine-learning deep-learning cross-validation natural-language-processing

为什么在主题建模中随机分割数据不是一个好方法？

假设MNIST典型示例：如果我让数字为0到8的火车和测试集中的数字为9（假设目前没有验证集），则我的模型将无法正确预测我的测试集中排名第9。

由于主题是有限的，所以是否不将用于主题建模的文章分开？我的模型如何预测尚未公开的主题？我不知道这是因为Google的这种解释，即随机分割并不总是一个好主意。

https://developers.google.com/machine-learning/data-prep/construct/sampling-splitting/example

0 个答案:

没有答案