以可变长度列表作为特征的线性回归

时间:2016-03-04 12:55:23

标签: python machine-learning scikit-learn regression

我正在python(scikit-learn)中构建回归模型,以基于大约300次观察来预测进程所花费的时间(y)。 5个特征之一是可变长度的整数列表。根据初始模型,列表成员的总和和列表长度都是y的重要预测因子。由于我没有更多数据,我想将整个列表用作其中一项功能。但我无法弄清楚如何处理列表长度的变化。

一种方法是使用列表的mean,max,dist等作为特征。任何更好的想法?

编辑:X是工作流批处理多个项目的属性,y是完成该项目所需的时间。 X中的一个属性是可变长度列表,如[3,8,1,3000],它记录每个类别的项目。所有类别的处理时间都相似,但类别数量很重要。因此[CategoryX:30]和[CategoryY:30]将同时运行,但[CategoryX:15,CategoryY:15]时间将与上述两个不同,即使总项目数相同。示例数据低于最后一栏是我试图预测的:

12, 1234,  timestamp, [1230,23,12,2,8,90],34.78
34, 21345, timestamp, [2,45],45.89
90, 45678, timestamp,[1,5, 89,45],56.78 

等等。

0 个答案:

没有答案