将非数值数据应用于神经网络

时间:2018-07-05 16:16:04

标签: python machine-learning

我想在我的神经网络中包含非数字数据。具体来说,我正在研究GICS行业分类(例如,实用程序,技术)。我认为无法将这些数据有意义地转换为数字数据。

一种解决方案是使用虚拟变量为每个行业标记。这种方法的局限性在于神经网络输入层中的膨胀尺寸。有没有更复杂的方法来处理此类问题?

1 个答案:

答案 0 :(得分:1)

您完全正确,字符串或顺序数值['Utilities', 'Technology']在神经网络中不起作用,因为该网络将学会检测字符或数字之间不存在的关系。

为避免这种情况,我们使用称为One Hot Encoding的东西。这是一种将每个分类变量编码为状态向量的技术,因此消除了分类值在它们之间具有某种隐式关系的假设。

使用数组gics = [[1,0],[0,1]],您的一种热编码将类似于: <td style="width: 10em" mat-cell *matCellDef="let row">