标签: apache-spark apache-spark-mllib
我有大约6000万条记录,涉及约1万种产品,与订单和交货数据有关。我正在为交付时间建立线性回归模型。通常,如果我使用r或python进行此操作,那么我将首先尝试对产品进行细分并在细分级别进行汇总,然后尝试构建细分的回归模型,以减少所需的模型数量和培训时间。我是新来激发ml的人,我想知道这是创建ml管道并尝试为所有10K单个产品训练模型的合理方法吗?