我正在尝试在数据集上运行kNN,但我不断收到一些NA错误。我已经用尽堆栈溢出试图找到解决此问题的方法。我在任何地方都找不到有用的东西。
这是我正在使用的数据集:https://www.kaggle.com/tsiaras/uk-road-safety-accidents-and-vehicles
我已经将我的预测变量和目标的每个单因子变量和整数变量都转换为数值,以便可以进行欧几里得距离。我删除了所有NA,但kNN不断抛出以下错误消息:
NAs introduced by coercionNAs introduced by coercionError in knn(train[2:nrow(train), c(11, 22, 23, 25, 27, 28)], test[(2:nrow(test)), :
NA/NaN/Inf in foreign function call (arg 6)
这是我如何转换所有预测变量并运行kNN的一个示例:
as.numeric(levels(test$Road_Type))[levels(test$Road_Type)]
as.numeric(levels(train$Road_Type))[levels(train$Road_Type)]
train <- na.exclude(train)
test <- na.exclude(test)
cl=as.numeric(train[2:nrow(train),5])
cl <- na.exclude(cl)
knn0 <- knn(train[2:nrow(train),c(11,22,23,25,27,28)], test[(2:nrow(test)),c(11,22,23,25,27,28)], cl)
我正在为所有的11,22,23,25,27,28列以及目标做as.numeric的东西。我从2开始行,所以它不包含标签。在将参数传递到kNN函数之前,我还尝试运行以下代码:
sum(is.na(train[2:nrow(train),c(11,22,23,25,27,28)]))
sum(is.na(test[2:nrow(test),c(11,22,23,25,27,28)]))
sum(is.na(cl))
所有这3个都返回0,因此在将其传递给kNN函数之前没有NA值。
编辑
通过将其转换为数字来解决此问题:
train $ Road_Type <-as.numeric(as.integer(factor(train $ Road_Type)))
感谢所有提供帮助的人!
答案 0 :(得分:0)
您确定已将数据转换为数字吗? as.numeric()不能正常运行,您必须分配其结果,就像用cl一样。
答案 1 :(得分:0)
您需要始终查看数据。这可以帮助您和其他人回答问题。
如果我们检查您的数据,则它看起来像这样:
str(df[, c(11, 22, 23, 25, 27, 28)])
'data.frame': 2047256 obs. of 6 variables:
$ Junction_Control : chr "Data missing or out of range" "Auto traffic signal" "Data missing or out of range" "Data missing or out of range" ...
$ Number_of_Vehicles : int 1 1 2 1 1 2 2 1 2 2 ...
$ Pedestrian_Crossing.Human_Control: int 0 0 0 0 0 0 0 0 0 0 ...
$ Police_Force : chr "Metropolitan Police" "Metropolitan Police" "Metropolitan Police" "Metropolitan Police" ...
$ Road_Type : chr "Single carriageway" "Dual carriageway" "Single carriageway" "Single carriageway" ...
$ Special_Conditions_at_Site : chr "None" "None" "None" "None" ...
如果将字符转换为数字会发生什么情况
df$Police_Force <- as.numeric(df$Police_Forc)
df$Police_Force
[1] NA NA NA NA NA NA NA ....
Warning message:
NAs introduced by coercion
这在R中不起作用。但是,如果我们将它们设置为因子,然后再将其更改为数值,则可以解决问题。
df$Police_Force <- as.numeric(as.factor(df$Police_Forc))
df$Police_Force
[1] 30 30 30 30 30 30 30 ...
您的方法行不通,因为变量不是因素而是字符。
levels(df$Road_Type)
NULL
as.numeric(levels(df$Road_Type))[levels(df$Road_Type)]
numeric(0)
由于您没有显示导入R后数据的外观,所以我可能是错误的。我使用了read.csv
函数。