神经网络混合实值和分类输入特征

时间:2014-11-15 06:03:35

标签: machine-learning neural-network random-forest feature-selection

我的问题有三个部分:(1)前馈神经网络能否处理混合的输入特征:有些是分类的(离散值:例如,低,中,高),有些是实值的?输入特征变量的总数约为80-90,我希望解决(监督的)分类问题(2)如果第(1)部分的答案是肯定的,我已经阅读了关于使用二进制代码的信息,如(Low = 001,Med = 010,High = 100等,用于表示其他环境中的离散值输入特征变量 - 这对NN也有效吗?我担心整个输入特征向量的缩放/标准化(我推测这是推荐的) - 如何缩放/标准化整个混合特征向量,或者它不是必需的? (3)有人建议我使用随机森林(RF)。我并不熟悉RF。在给定的上下文中使用RF与NN的优缺点是什么?

1 个答案:

答案 0 :(得分:0)

我可以回答问题#2,我对RF并没有做好准备,所以我会把这个答案留给更熟练的人。

就第2点而言,如果将每个分类输入转换为k向量(k =类的数量),则只需引入k个新输入,这些输入在[0,1]范围内缩放,所以如果你的实值输入功能本身在这个范围内缩放,你就可以了。

请注意,如果您正在使用tanh激活函数(其输出范围从-1到1),则应相应地转换分类输入要素,因此(例如k = 3):

0应该变为< 1,-1,-1>

1应该变为< -1,-1,-1>

2应该变为< -1,-1,1>

希望我对此很清楚。