数据来自几个记录。记录如下: [位向量,数值向量,一些数值]。 位向量对于每个记录具有不同的长度,并且对于数字向量也是如此。 每条记录的数值值是所有记录的常量。
输出为2个数字。它们的值(均在[0.0,1.0]范围内)用于搜索算法中的评估/适应度函数逼近。
所以,我的问题是: 如何为神经网络表示/规范化这些数据? 特别是,是否有一种(棘手的)方式来紧凑地表示位向量?它的长度可以达到几千。
答案 0 :(得分:2)
除了少数经典问题之外,没有一种正确的方法可以将复杂数据输入NN。这是一种艺术,事实上,深度学习的最新进展在表现复杂数据方面取得了很大进展。
因此,在不知道数据性质的情况下,很难提供任何具体建议。为什么你有可变长度向量?它们代表某种序列吗?什么是位向量编码?
从纯技术角度来看,可变长度数据意味着您需要使用零填充到常量长度(最简单但通常不好)或特殊NN架构(如卷积或循环网络),并且选择将取决于数据集的性质。如果您的位向量代表一组某种二进制特征,那么每位需要一个神经元,或者您可以尝试使用自动编码器训练紧凑的实值嵌入。
要获得更有用的答案,请描述问题的性质并将问题发布到stats.stackexchange.com