带有多个标签的稀疏数据

时间:2018-07-26 07:23:21

标签: machine-learning classification regression sparse-matrix

我有这个数据集,我必须在给定客户第一笔订单的情况下,预测客户是否会发出第二笔订单;如果是,那么客户在第一笔订单后的几天内会再发出第二笔订单?在培训数据中,如果客户不下订单,则标签为N(表示无订单),如果客户在180天后下订单,则标签为L(表示长)。如果第二阶介于0到180天之间,则其标签为第一阶和第二阶之间的天数(例如13,27、45、60、135等)。我必须准确预测确切客户将下订单的天数,或者(180天后,N-无订单和L-订单)。功能仅为1和0,包含646列(稀疏数据)。

首先我很困惑这是什么问题,似乎是分类和回归问题的混合体。首先我必须对它属于N,L还是介于0-180天之间进行分类。在0-180天之间,我必须预测确切的天数,客户将再次下订单。如果我认为正确的话,我应该怎么做。欢迎其他建议。

PS:有7474行和646列包含稀疏数据,分别为0和1

1 个答案:

答案 0 :(得分:0)

就个人而言,我将首先进行简单的分类。 在这种情况下,您尝试“淘汰”长期/无购买客户的短期重新订购。

请确保您在这些类别中的分配合理,以获得不错的结果。

然后,您可以开始查看仅具有特定日期的数据,然后对该子集执行回归。

关于维度的稀疏性,您可以尝试使用诸如PCA或LDA的降维方法,以更好地表示数据,而不浪费不必要的资源(例如,您还可以使用嵌入层)。