我想在我的神经网络中包含非数字数据。具体来说,我正在研究GICS行业分类(例如,实用程序,技术)。我认为无法将这些数据有意义地转换为数字数据。
一种解决方案是使用虚拟变量为每个行业标记。这种方法的局限性在于神经网络输入层中的膨胀尺寸。有没有更复杂的方法来处理此类问题?
答案 0 :(得分:1)
您完全正确,字符串或顺序数值['Utilities', 'Technology']
在神经网络中不起作用,因为该网络将学会检测字符或数字之间不存在的关系。
为避免这种情况,我们使用称为One Hot Encoding的东西。这是一种将每个分类变量编码为状态向量的技术,因此消除了分类值在它们之间具有某种隐式关系的假设。
使用数组gics = [[1,0],[0,1]]
,您的一种热编码将类似于:
<td style="width: 10em" mat-cell *matCellDef="let row">