使用sklearn

时间:2019-06-28 02:08:53

标签: python machine-learning scikit-learn

我正在尝试训练标准的sklearn ml模型(随机森林)。但是,我的数据是行的集合,每个行都有一列datetime

示例数据:

category company date time
---------------------------
0        a       1    0700  
0        b       2    0500   
1        c       3    0400 
1        c       3    0300   
0        c       1    0800    
..

此处的分类为二进制,即01。在此,对数据集进行处理,以使所有具有相同date的行都归为10

排序数据:

category company date time
---------------------------
0        a       1    0700
0        c       1    0800    
---------------------------
0        b       2    0500  
--------------------------- 
1        c       3    0400 
1        c       3    0300   
..

此处是根据date列进行描述的。每个日期批处理没有固定的行数。

虽然我可以将分类的每一行传递给sklearn模型,但是我不确定如何将sklearn传递给 predict ,即将具有相同日期的行数进行分类。

同一日期的未知数据(分类待预测):

category company date time
---------------------------
?        a       5    0700
?        c       5    0800    
?        d       5    0400 
?        d       5    0300   
..

一种建议的方法是“转置”我的数据集,以使每个批次都适合一个单个行,该行具有多个列,每个列对应于date集中的一个条目。但是,这似乎太耗时,因为每一列都有一个唯一的标头,即company_0company_1 ... company_n

如何传递sklearn单个日期的批处理数据集(csv),以便它可以对该批处理中的所有条目进行分类,其中单个日期中的每一行都具有相同的分类,1或{{1} }?

0 个答案:

没有答案