我希望这个问题得到正确陈述。 这是完整的数据集https://github.com/Maurizio-Mario/Bike_sharing/blob/master/raw%20data.xlsx
Excel工作簿由三张纸组成:“Note”是coodebook,“All data”是主数据集,“Testing”是第二个较小的数据集。
library(XLConnect)
work_book <- loadWorkbook("raw data.xlsx")
note <- readWorksheet(work_book, sheet = "Note")
all_data <- readWorksheet(work_book, sheet = "All data")
testing <- readWorksheet(work_book, sheet = "Testing")
这里是工作表All_data
的数据样本:
datetime Weekday season Holiday Workingday weather Temp Feel-like temp Humidity Windspeed Casual renter Registered renter Total renter
01/01/2011 00:00 6 1 0 0 1 9.84 14.395 81 0 3 13 16
01/01/2011 01:00 6 1 0 0 1 9.02 13.635 80 0 8 32 40
01/01/2011 02:00 6 1 0 0 1 9.02 13.635 80 0 5 27 32
01/01/2011 03:00 6 1 0 0 1 9.84 14.395 75 0 3 10 13
01/01/2011 04:00 6 1 0 0 1 9.84 14.395 75 0 0 1 1
01/01/2011 05:00 6 1 0 0 2 9.84 12.88 75 6.0032 0 11
01/01/2011 06:00 6 1 0 0 1 9.02 13.635 80 0 2 0 2
我们讨论根据变量中记录的条件每小时观察租用的自行车数量。总体而言,从2011年1月1日到2012年12月31日,我们有超过17000次观察。
我必须预测2013年1月可能出租的每日自行车数量。
我将在train
和test
数据集中拆分数据,以训练能够预测total.renter
变量的算法。我应该使用该算法来预测testing
数据集上的租用者数量。
library(caret)
set.seed(1234)
in_train <- createDataPartition(y = all_data$Total.renter,
p = 0.75,
list = FALSE)
train <- all_data[in_train, ]
test <- all_data[-in_train, ]
这里是testing
数据集的一个例子,我应该预测哪些数据:
datetime Weekday season Holiday Workingday weather Temp Feel-like temp Humidity Windspeed
01/01/2013 00:00 2 1 1 0 1 13.12 17.43 71.00 0.00
01/01/2013 01:00 2 1 1 0 1 12.85 16.16 70.67 6.00
01/01/2013 02:00 2 1 1 0 1 11.75 16.16 77.33 0.00
01/01/2013 03:00 2 1 1 0 1 11.48 15.91 79.00 0.00
使用包caret
我正在开发一个预测模型,但这是问题所在。
金额total.renter
是casual.renters
和registred.renter
因此,我不知道最好的方法。我应该直接预测total.renter
吗?或者我应该分别预测casual.renters
和registred.renter
,然后对它们求和?