采用RF模型的R分层采样

时间:2015-10-19 16:47:52

标签: python r pandas scikit-learn random-forest

我有一个来自csv文件的数据集(考虑dataset.csv),其中包含功能的二进制表示(381个功能)和11个类。以下是一个示例表示。

#features->      A,B,C,D,E,......Y,X,Class

raw1             0,1,1,1,0,......1,1,9
raw2             0,1,0,0,0,......0,0,8
raw3             0,1,1,1,0,......1,0,8
....
raw54000         0,1,0,0,0,......1,0,3

我面临的问题是课程的不平衡。因此,我将通过从每个类中获取250个实例来组合分层抽样,并创建500个用于自举的树。因为我有11个类,所以每个树将使用11 * 250 = 2750个实例进行训练。我对weka非常熟悉,但似乎没有选择。

其他数据分析任务由Python主要使用pandas完成。但是有人告诉我这可以通过R轻松完成,我很少有经验。如果有人可以使用Python(pandas)/scikit learningR以任一方式指导我如何执行此操作,我将非常感激

0 个答案:

没有答案