我有一个来自csv文件的数据集(考虑dataset.csv),其中包含功能的二进制表示(381个功能)和11个类。以下是一个示例表示。
#features-> A,B,C,D,E,......Y,X,Class
raw1 0,1,1,1,0,......1,1,9
raw2 0,1,0,0,0,......0,0,8
raw3 0,1,1,1,0,......1,0,8
....
raw54000 0,1,0,0,0,......1,0,3
我面临的问题是课程的不平衡。因此,我将通过从每个类中获取250个实例来组合分层抽样,并创建500个用于自举的树。因为我有11个类,所以每个树将使用11 * 250 = 2750个实例进行训练。我对weka
非常熟悉,但似乎没有选择。
其他数据分析任务由Python主要使用pandas完成。但是有人告诉我这可以通过R
轻松完成,我很少有经验。如果有人可以使用Python(pandas)/scikit learning
或R
以任一方式指导我如何执行此操作,我将非常感激