具有分类功能,我们可以看到BigQuery ML通过在所创建的模型上运行ML.WEIGHTS来自动创建“ _null_filler”虚拟变量,这很有意义。
对于数字特征,缺失值是使用均值或其他方式估算的?官方文档中的任何地方都提到了这两种行为吗?
答案 0 :(得分:4)
输入是统计中用替换值替换缺失数据的过程。训练时,BigQuery在数据集中遇到空值时,会丢失值。在预测中,BigQuery遇到空值或以前看不见的值时,可能会出现缺失值。以下文档记录了BigQuery ML在各种情况下如何处理丢失的数据。
对于数字类型(由BigQuery ML自动标准化),空值将替换为原始输入数据集中用于训练和预测的要素列所计算的平均值。< / p>
对于一个热编码列,添加了一个附加类别,所有空值都将映射到该类别以进行训练和预测。实际上,在预测时将看不见的数据分配了权重为0。
我们在公共文档中缺少此信息。我们正在努力将其添加。感谢您提出来。