我正在制作一种KNN算法,以使用约80,000行此数据来预测close_price
。
# A tibble: 81,334 x 12
latitude longitude close_date close_price id address country state zip date week year
<dbl> <dbl> <dttm> <dbl> <int> <fct> <fct> <fct> <fct> <date> <dbl> <dbl>
1 36.4 -98.7 2014-08-05 06:34:00 147504. 2 US-412, Fai… USA OK 73737 2014-08-05 31 2014
2 36.6 -97.9 2014-08-12 23:48:00 137401. 3 N2850 Rd, E… USA OK 73703 2014-08-12 32 2014
3 36.6 -97.9 2014-08-09 04:00:40 239105. 5 Craig Rd, P… USA OK 73766 2014-08-09 32 2014
4 36.5 -98.3 2014-08-07 15:18:18 270885. 6 62161 Caddo… USA OK 73741 2014-08-07 32 2014
我试图从一个简单的模型开始,该模型预测收盘价是一周的函数。
library(caret)
data_small <- data %>% select(close_price, week)
training.samples <- data_small$close_price %>%
createDataPartition(p = 0.8, list = FALSE)
train.data <- data_small[training.samples, ]
test.data <- data_small[-training.samples, ]
我发现我可以使用knn()
中的class
进行预测。
library(class)
modelKNN <- knn(train.data, test.data, cl = train.data$close_price, k = 4, l = 0, prob = FALSE, use.all = TRUE)
但是当我尝试使用插入符号执行操作时,出现错误。
model <- train(close_price~ ., data = train.data, method = "knn")
它为我服务:
警告消息:
1:Resample01的预测失败:k = 5 knnregTrain(train = structure(c(32,32,32,25,25,25,25,25,32,:
knn中的联系太多2:对Resample01的预测失败:k = 7 knnregTrain(train = 结构(c(32,32,32,25,25,25,25,32,:knn中的关系太多
3:Resample01的预测失败:k = 9 knnregTrain中的错误(火车= 结构(c(32,32,32,25,25,25,25,32,:knn中的关系太多
我尝试了train()
的不同变体,例如包含具有相同结果的trControl = trainControl("cv", number = 10), preProcess = c("center", "scale"), tuneLength = 10
。
我还想指出,prices vary quite a bit是基于最近的一周。
我看了一个类似的问题here,但他们的看法只使用了class
。
这是火车数据的结构。
# A tibble: 65,070 x 2
close_price week
<dbl> <dbl>
1 147504. 31
2 239105. 32
3 270885. 32
4 228514. 25