如何以最佳方式编码神经网络的复杂数据?

时间:2015-02-21 10:05:21

标签: neural-network bitvector

数据来自几个记录。记录如下: [位向量,数值向量,一些数值]。 位向量对于每个记录具有不同的长度,并且对于数字向量也是如此。 每条记录的数值值是所有记录的常量。

输出为2个数字。它们的值(均在[0.0,1.0]范围内)用于搜索算法中的评估/适应度函数逼近。

所以,我的问题是: 如何为神经网络表示/规范化这些数据? 特别是,是否有一种(棘手的)方式来紧凑地表示位向量?它的长度可以达到几千。

1 个答案:

答案 0 :(得分:2)

除了少数经典问题之外,没有一种正确的方法可以将复杂数据输入NN。这是一种艺术,事实上,深度学习的最新进展在表现复杂数据方面取得了很大进展。

因此,在不知道数据性质的情况下,很难提供任何具体建议。为什么你有可变长度向量?它们代表某种序列吗?什么是位向量编码?

从纯技术角度来看,可变长度数据意味着您需要使用零填充到常量长度(最简单但通常不好)或特殊NN架构(如卷积或循环网络),并且选择将取决于数据集的性质。如果您的位向量代表一组某种二进制特征,那么每位需要一个神经元,或者您可以尝试使用自动编码器训练紧凑的实值嵌入。

要获得更有用的答案,请描述问题的性质并将问题发布到stats.stackexchange.com