组合机器学习输出

时间:2016-02-18 17:28:47

标签: r machine-learning r-caret predict

我希望这个问题得到正确陈述。 这是完整的数据集https://github.com/Maurizio-Mario/Bike_sharing/blob/master/raw%20data.xlsx

Excel工作簿由三张纸组成:“Note”是coodebook,“All data”是主数据集,“Testing”是第二个较小的数据集。

library(XLConnect)
work_book <- loadWorkbook("raw data.xlsx")
note <- readWorksheet(work_book, sheet = "Note")
all_data <- readWorksheet(work_book, sheet = "All data")
testing <- readWorksheet(work_book, sheet = "Testing")

这里是工作表All_data的数据样本:

datetime            Weekday season  Holiday Workingday  weather Temp    Feel-like  temp Humidity    Windspeed   Casual renter   Registered renter   Total renter
01/01/2011 00:00    6   1   0   0   1   9.84    14.395  81  0   3   13  16
01/01/2011 01:00    6   1   0   0   1   9.02    13.635  80  0   8   32  40
01/01/2011 02:00    6   1   0   0   1   9.02    13.635  80  0   5   27  32
01/01/2011 03:00    6   1   0   0   1   9.84    14.395  75  0   3   10  13
01/01/2011 04:00    6   1   0   0   1   9.84    14.395  75  0   0   1   1
01/01/2011 05:00    6   1   0   0   2   9.84    12.88   75  6.0032  0   11
01/01/2011 06:00    6   1   0   0   1   9.02    13.635  80  0   2   0   2

我们讨论根据变量中记录的条件每小时观察租用的自行车数量。总体而言,从2011年1月1日到2012年12月31日,我们有超过17000次观察。

我必须预测2013年1月可能出租的每日自行车数量。

我将在traintest数据集中拆分数据,以训练能够预测total.renter变量的算法。我应该使用该算法来预测testing数据集上的租用者数量。

library(caret)
set.seed(1234)
in_train <- createDataPartition(y = all_data$Total.renter,
                            p = 0.75,
                            list = FALSE)

train <- all_data[in_train, ]
test <- all_data[-in_train, ]

这里是testing数据集的一个例子,我应该预测哪些数据:

datetime    Weekday season  Holiday Workingday  weather Temp    Feel-like temp  Humidity    Windspeed   
01/01/2013 00:00    2   1   1   0   1   13.12   17.43   71.00   0.00    
01/01/2013 01:00    2   1   1   0   1   12.85   16.16   70.67   6.00    
01/01/2013 02:00    2   1   1   0   1   11.75   16.16   77.33   0.00    
01/01/2013 03:00    2   1   1   0   1   11.48   15.91   79.00   0.00    

使用包caret我正在开发一个预测模型,但这是问题所在。

金额total.rentercasual.rentersregistred.renter

的总和

因此,我不知道最好的方法。我应该直接预测total.renter吗?或者我应该分别预测casual.rentersregistred.renter,然后对它们求和?

0 个答案:

没有答案