BigQuery ML是否会自动拆分数据集以进行训练和评估?还是我们必须使用Logistic回归BigQuery ML手动获得80%的数据集进行培训,10%的验证和10%的评估? 如果两者都是肯定的,那么哪个更好?
谢谢
答案 0 :(得分:0)
是的,BigQuery ML将自动为验证过程拆分数据。手动拆分一个保留集,以对模型从未见过的数据执行一些附加验证,这也是相当普遍的做法。
您可以使用DATA_SPLIT_METHOD
参数来告诉BigQuery ML如何拆分数据。默认拆分为AUTO_SPLIT
,定义如下:
当输入数据少于500行时,所有行 用作训练数据。当在500至50,000行之间 输入数据中,有20%的数据用作RANDOM中的评估数据 分裂。当输入数据中有50,000行以上时,仅 其中10,000个用作RANDOM划分中的评估数据。
有关更多信息,我建议阅读official documentation。