PySpark中的加速故障时间模型可对重复事件进行建模

时间:2019-03-19 06:57:58

标签: machine-learning pyspark apache-spark-ml survival-analysis survival

我正在尝试通过使用PySpark中的Accelerated Failure Time模型从其订单历史记录中预测重新订购订单推车的客户的可能性。 我的输入数据包含

  • 客户的各种特征以及相应的购物车作为预测变量
  • 连续两个订单之间的
  • 天为标签和
  • 以前观察到的订单是未经审查的,以后的订单是经过审查的。

PySpark是这里的选择,因为对环境有一些限制,我没有其他选择来处理大量的订单历史记录(约40 GB)。这是我的示例实现:

> from pyspark.ml.regression import AFTSurvivalRegression from
> pyspark.ml.linalg import Vectors
> 
> training = spark.createDataFrame([
>     (1,1.218, 1.0, Vectors.dense(1.560, -0.605)),
>     (1,2.949, 0.0, Vectors.dense(0.346, 2.158)),
>     (2,3.627, 0.0, Vectors.dense(1.380, 0.231)),
>     (2,0.273, 1.0, Vectors.dense(0.520, 1.151)),
>     (3,4.199, 0.0, Vectors.dense(0.795, -0.226))], ["customer_id","label", "censor", "features"]) aft =
> AFTSurvivalRegression()
> 
> model = aft.fit(training)

问题:

  1. pyspark.ml.regression中的AFTSurvivalRegression方法是否能够根据客户ID将数据集中的记录聚类?如果是,请说明如何实施?
  2. 期望的输出将包含特定客户重新订购不同订单的概率。如何通过扩展代码实现来获取这些值?

0 个答案:

没有答案