Question

我正在python（scikit-learn）中构建回归模型，以基于大约300次观察来预测进程所花费的时间（y）。 5个特征之一是可变长度的整数列表。根据初始模型，列表成员的总和和列表长度都是y的重要预测因子。由于我没有更多数据，我想将整个列表用作其中一项功能。但我无法弄清楚如何处理列表长度的变化。

一种方法是使用列表的mean，max，dist等作为特征。任何更好的想法？

编辑：X是工作流批处理多个项目的属性，y是完成该项目所需的时间。 X中的一个属性是可变长度列表，如[3,8,1,3000]，它记录每个类别的项目。所有类别的处理时间都相似，但类别数量很重要。因此[CategoryX：30]和[CategoryY：30]将同时运行，但[CategoryX：15，CategoryY：15]时间将与上述两个不同，即使总项目数相同。示例数据低于最后一栏是我试图预测的：

12, 1234,  timestamp, [1230,23,12,2,8,90],34.78
34, 21345, timestamp, [2,45],45.89
90, 45678, timestamp,[1,5, 89,45],56.78

等等。

以可变长度列表作为特征的线性回归

0 个答案: