错误R Studio和RGUi遇到致命错误 - 崩溃。分类大数据集的预测建模

时间:2017-11-27 18:50:04

标签: r rstudio analytics knn predictive

我正在处理一个有21个属性的数据集。 16是分类,3是顺序因子,2是日期/时间(目标变量)。行数是14512。

我要做什么:这个数据集基本上是关于不同团队关闭的日常办公事件,我们正在尝试预测某些预测变量时将采取的时间。 / p>

我正在使用R-Studio进行分析。

完成工作:所以我想用Knn进行计算,并将所有预测变量转换为二进制虚拟变量,将目标变量转换为A,B,C分类。

问题:现在,我应用了knn函数示例:

RPS_test_pred <- knn(train = RPS_train, test = RPS_test,cl = RPS_train_labels, k=1121)

将k保持为1121(因为我们在数据集中有14513行,训练和测试数据也被分成70:30比例)

R工作室崩溃并关闭声明 - 发生致命错误。

请建议任何其他方式来计算此数据或我应该使用哪种适合此类数据的其他建模技术。

1 个答案:

答案 0 :(得分:0)

在过去,我使用过包含许多序数和分类变量的数据集,并且已经成功地进行了一些转换以使它们成为数字。以下是一些与房价数据相关的例子。

序数变量 我首先建议根据相对顺序将序数变量更改为数值:

train$Exter.Quality[train$ExterQual == "Excellent"] <- 4
train$Exter.Quality[train$ExterQual == "Good"] <- 3
train$Exter.Quality[train$ExterQual == "Nominal"] <- 2
train$Exter.Quality[train$ExterQual == "Fair"] <- 1

分类变量 已经根据您正在查看的响应变量的平均值(根据我的情况下的销售价格)使用组排名:

nbhdprice <- summarize(group_by(train, Neighborhood),
          mean(SalePrice, na.rm=T))


nbhdprice_lo <- filter(nbhdprice, nbhdprice$`mean(SalePrice, na.rm = T)` < 140000)
nbhdprice_med <- filter(nbhdprice, nbhdprice$`mean(SalePrice, na.rm = T)` < 200000 &
                          nbhdprice$`mean(SalePrice, na.rm = T)` >= 140000 )
nbhdprice_hi <- filter(nbhdprice, nbhdprice$`mean(SalePrice, na.rm = T)` >= 200000)

train$nbhd_price_level[train$Neighborhood %in% nbhdprice_lo$Neighborhood] <- 1
train$nbhd_price_level[train$Neighborhood %in% nbhdprice_med$Neighborhood] <- 2
train$nbhd_price_level[train$Neighborhood %in% nbhdprice_hi$Neighborhood] <- 3

可以在代码空间中找到更多示例:https://www.kaggle.com/skirmer/fun-with-real-estate-data/code