我正在尝试学习在R中使用神经网络。作为一个学习问题,我一直在following problem使用Kaggle:
别担心,这个问题是专为人们学习而设计的,没有任何奖励。
我从一个简单的逻辑回归开始,这非常适合我的脚。现在我想学习使用神经网络。我的训练数据如下所示(列:行):
- survived: 1
- pclass: 3
- sex: male
- age: 22.0
- sibsp: 1
- parch: 0
- ticket: PC 17601
- fare: 7.25
- cabin: C85
- embarked: S
我的起始R代码如下所示:
> net <- neuralnet(survived ~ pclass + sex + age + sibsp +
parch + ticket + fare + cabin + embarked,
train, hidden=10, threshold=0.01)
当我运行这行代码时,我收到以下错误:
Error in neurons[[i]] %*% weights[[i]] :
requires numeric/complex matrix/vector arguments
我知道问题出在我呈现输入变量的方式上,但是我太过于理解我需要做些什么才能纠正这个问题。有人可以帮忙吗?
谢谢!
答案 0 :(得分:40)
在盲目地将数据提供给计算机之前, 看看它是个好主意:
d <- read.csv("train.csv")
str(d)
# 'data.frame': 891 obs. of 12 variables:
# $ PassengerId: int 1 2 3 4 5 6 7 8 9 10 ...
# $ Survived : int 0 1 1 1 0 0 0 0 1 1 ...
# $ Pclass : int 3 1 3 1 3 3 1 3 3 2 ...
# $ Name : Factor w/ 891 levels "Abbing, Mr. Anthony",..: 109 191 358 277 16 559 520 629 417 581 ...
# $ Sex : Factor w/ 2 levels "female","male": 2 1 1 1 2 2 2 2 1 1 ...
# $ Age : num 22 38 26 35 35 NA 54 2 27 14 ...
# $ SibSp : int 1 1 0 1 0 0 0 3 0 1 ...
# $ Parch : int 0 0 0 0 0 0 0 1 2 0 ...
# $ Ticket : Factor w/ 681 levels "110152","110413",..: 524 597 670 50 473 276 86 396 345 133 ...
# $ Fare : num 7.25 71.28 7.92 53.1 8.05 ...
# $ Cabin : Factor w/ 148 levels "","A10","A14",..: 1 83 1 57 1 1 131 1 1 1 ...
# $ Embarked : Factor w/ 4 levels "","C","Q","S": 4 2 4 4 4 3 4 4 4 2 ...
summary(d)
某些变量的值太多而无用 (至少在你的第一个模型中): 你可以删除名称,票,舱和passengerId。 您可能还想将一些数值变量(例如,类)转换为因子, 如果它更有意义。
由于neuralnet
仅处理定量变量,
你可以转换所有的定性变量(因子)
使用model.matrix
函数的二进制(“虚拟”)变量 -
这是非常罕见的情况之一
其中R没有为你执行转换。
m <- model.matrix(
~ Survived + Pclass + Sex + Age + SibSp + Parch + Fare + Embarked,
data = d
)
head(m)
library(neuralnet)
r <- neuralnet(
Survived ~ Pclass + Sexmale + Age + SibSp + Parch + Fare + EmbarkedC + EmbarkedQ + EmbarkedS,
data=m, hidden=10, threshold=0.01
)
答案 1 :(得分:7)
当您的数据中包含因子或字符变量时,会出现错误消息“需要数字/复杂矩阵/向量参数”。
有三种方法可以解决这个问题:
您可以使用上面提到的model.matrix()或者来自nnet包的class.ind()函数将因子转换为虚拟变量。