在Bigquery ML中拆分数据集进行训练和评估

时间:2019-11-18 11:16:35

标签: google-bigquery

BigQuery ML是否会自动拆分数据集以进行训练和评估?还是我们必须使用Logistic回归BigQuery ML手动获得80%的数据集进行培训,10%的验证和10%的评估? 如果两者都是肯定的,那么哪个更好?

谢谢

1 个答案:

答案 0 :(得分:0)

是的,BigQuery ML将自动为验证过程拆分数据。手动拆分一个保留集,以对模型从未见过的数据执行一些附加验证,这也是相当普遍的做法。

您可以使用DATA_SPLIT_METHOD参数来告诉BigQuery ML如何拆分数据。默认拆分为AUTO_SPLIT,定义如下:

  

当输入数据少于500行时,所有行   用作训练数据。当在500至50,000行之间   输入数据中,有20%的数据用作RANDOM中的评估数据   分裂。当输入数据中有50,000行以上时,仅   其中10,000个用作RANDOM划分中的评估数据。

有关更多信息,我建议阅读official documentation