Question

我是神经网络的新手，我对使用nnet包进行分类有疑问。

我的数据是数字和分类变量的混合。我想通过使用nnet和函数调用（例如

）来赢得胜利预测

nnet(WL~., data=training, size=10)

但是这给出了与使用仅包含变量的数字版本的数据帧（即将所有因子转换为数字（除了我的预测WL））不同的结果。

有人可以向我解释这里发生了什么吗？我想nnet正在解释不同的变量，但我想了解发生了什么。我很欣赏它的困难，没有任何数据来重现问题，但我只是在看一个关于神经网络如何使用nnet进行拟合的高级解释。我无法在任何地方找到它。非常感谢。

str(training)
'data.frame':   1346 obs. of  9 variables:
 $ WL                   : Factor w/ 2 levels "win","lose": 2 2 1 1 NA 1 1 2 2 2 ...
 $ team.rank            : int  17 19 19 18 17 16 15 14 14 16 ...
 $ opponent.rank        : int  14 12 36 16 12 30 11 38 27 31 ...
 $ HA                   : Factor w/ 2 levels "A","H": 1 1 2 2 2 2 2 1 1 2 ...
 $ comp.stage           : Factor w/ 3 levels "final","KO","league": 3 3 3 3 3 3 3 3 3 3 ...
 $ days.since.last.match: num  132 9 5 7 14 7 7 7 14 7 ...
 $ days.to.next.match   : num  9 5 7 14 7 9 7 9 7 8 ...
 $ comp.last.match      : Factor w/ 5 levels "Anglo-Welsh Cup",..: 5 5 5 5 5 5 3 5 3 5 ...
 $ comp.next.match      : Factor w/ 4 levels "Anglo-Welsh Cup",..: 4 4 4 4 4 3 4 3 4 3 ...

VS

str(training.nnet)
'data.frame':   1346 obs. of  9 variables:
 $ WL                   : Factor w/ 2 levels "win","lose": 2 2 1 1 NA 1 1 2 2 2 ...
 $ team.rank            : int  17 19 19 18 17 16 15 14 14 16 ...
 $ opponent.rank        : int  14 12 36 16 12 30 11 38 27 31 ...
 $ HA                   : num  1 1 2 2 2 2 2 1 1 2 ...
 $ comp.stage           : num  3 3 3 3 3 3 3 3 3 3 ...
 $ days.since.last.match: num  132 9 5 7 14 7 7 7 14 7 ...
 $ days.to.next.match   : num  9 5 7 14 7 9 7 9 7 8 ...
 $ comp.last.match      : num  5 5 5 5 5 5 3 5 3 5 ...
 $ comp.next.match      : num  4 4 4 4 4 3 4 3 4 3 ...

Answer 1

您正在寻找的差异可以通过一个非常小的例子来解释：

fit.factors <- nnet(y ~ x, data.frame(y=c('W', 'L', 'W'), x=c('1', '2' , '3')), size=1)
fit.factors
# a 2-1-1 network with 5 weights
# inputs: x2 x3 
# output(s): y 
# options were - entropy fitting 

fit.numeric <- nnet(y ~ x, data.frame(y=c('W', 'L', 'W'), x=c(1, 2, 3)), size=1)
fit.numeric
# a 1-1-1 network with 4 weights
# inputs: x 
# output(s): y 
# options were - entropy fitting

在R中拟合模型时，因子变量实际上是split out into several indicator/dummy variables。

因此，因子变量x = c('1', '2', '3')实际上分为三个变量：x1，x2，x3，其中一个变量值1其他人持有0的价值。此外，由于因素{1, 2, 3}是详尽无遗的，因此x1，x2，x3中的一个（且仅一个）必须为1。因此，变量x1，x2，x3自x1 + x2 + x3 = 1以来不是独立的。因此，我们可以删除第一个变量x1，并在模型中仅保留x2和x3的值，并且如果1和x2 == 0都认为级别为x2 == 0 nnet。

这就是您在x的输出中看到的内容;当length(levels(x)) - 1是一个因素时，实际上x 输入到神经网络，如果x是一个数字，那么神经网络只有一个输入网络是nnet。

大多数R回归函数（randomForest，glm，gbm，factors等）在内部执行从因子级别到虚拟变量的映射，并且我需要将其视为用户。

现在应该清楚使用带有numbers的数据集和带有factors的数据集替换numbers之间的区别。如果您转换为dummy，那么您就是：

丢失每个级别的独特属性并量化它们之间的差异。
在各级之间执行排序

这确实会导致一个稍微简单的模型（变量较少，因为我们不需要为每个级别设置{{1}}个变量），但通常不是正确的事情。

使用NNET进行分类

1 个答案: