我正在尝试训练标准的sklearn ml模型(随机森林)。但是,我的数据是行的集合,每个行都有一列date
和time
示例数据:
category company date time
---------------------------
0 a 1 0700
0 b 2 0500
1 c 3 0400
1 c 3 0300
0 c 1 0800
..
此处的分类为二进制,即0
或1
。在此,对数据集进行处理,以使所有具有相同date
的行都归为1
或0
排序数据:
category company date time
---------------------------
0 a 1 0700
0 c 1 0800
---------------------------
0 b 2 0500
---------------------------
1 c 3 0400
1 c 3 0300
..
此处是根据date
列进行描述的。每个日期批处理没有固定的行数。
虽然我可以将分类的每一行传递给sklearn模型,但是我不确定如何将sklearn传递给 predict ,即将具有相同日期的行数进行分类。
同一日期的未知数据(分类待预测):
category company date time
---------------------------
? a 5 0700
? c 5 0800
? d 5 0400
? d 5 0300
..
一种建议的方法是“转置”我的数据集,以使每个批次都适合一个单个行,该行具有多个列,每个列对应于date
集中的一个条目。但是,这似乎太耗时,因为每一列都有一个唯一的标头,即company_0
,company_1
... company_n
。
如何传递sklearn单个日期的批处理数据集(csv),以便它可以对该批处理中的所有条目进行分类,其中单个日期中的每一行都具有相同的分类,1
或{{1} }?