如何格式化字母数字分类数据以输入到神经网络?

时间:2019-07-08 13:09:20

标签: tensorflow neural-network artificial-intelligence

我目前正在从事一个人工智能项目,该项目的输入由字母A,B,C或D的固定长度矢量组成。我希望能够输入每个字母存在的字母向量中的位置进入神经网络。例如,在每个位置处都有一个数组,以使该位置处的字母在相应的输入数组中具有1,而数组中的所有其他位置均为0。例如,如果字母在字母向量的第十个位置是A,则输入神经元的“输入向量”将如下所示:

[A B C D]
[1 0 0 0]

当然,这可能源于像这样的字母向量:

[A B C D D B A A B C A A]

但是,输入神经元不能将向量作为输入。因此,格式化此输入以输入到神经网络的最佳方法是什么?

1 个答案:

答案 0 :(得分:0)

我认为您所说的被称为“单热编码”。如果您对示例[A B C D]执行此操作,则会得到以下信息:

[[1 0 0 0]
 [0 1 0 0]
 [0 0 1 0]
 [0 0 0 1]

第一列指示其是否为A,第二列指示其为B,依此类推。

您不能将向量插入到NN的单个输入中,但是除了只有4个输入之外,您还可以对编码器矩阵进行整形并改为具有16个输入。