我正在尝试通过使用PySpark中的Accelerated Failure Time模型从其订单历史记录中预测重新订购订单推车的客户的可能性。 我的输入数据包含
PySpark是这里的选择,因为对环境有一些限制,我没有其他选择来处理大量的订单历史记录(约40 GB)。这是我的示例实现:
> from pyspark.ml.regression import AFTSurvivalRegression from
> pyspark.ml.linalg import Vectors
>
> training = spark.createDataFrame([
> (1,1.218, 1.0, Vectors.dense(1.560, -0.605)),
> (1,2.949, 0.0, Vectors.dense(0.346, 2.158)),
> (2,3.627, 0.0, Vectors.dense(1.380, 0.231)),
> (2,0.273, 1.0, Vectors.dense(0.520, 1.151)),
> (3,4.199, 0.0, Vectors.dense(0.795, -0.226))], ["customer_id","label", "censor", "features"]) aft =
> AFTSurvivalRegression()
>
> model = aft.fit(training)
问题: