应用错误收集

我有一组具有我测量的属性的对象。对于每个对象，我获得描述该对象的实数向量。向量总是不完整的：通常从完整向量的开头或结尾处缺少数字，有时中间缺少信息。因此，每个对象产生不同长度的向量。我还测量了每个物体的质量，现在我想把我测量的物质的矢量与质量联系起来。

在我的领域（天体物理学）中常见的是从这个实数矢量中提取特征，例如，取值的平均值或线性组合;然后使用这些提取的特征来推断使用例如神经网络的质量（或其他）。然而，最近显示，矢量元素的非常复杂的组合导致更好的质量模型。

此模型中仍有残差，即使在处理模拟数据时也是如此。据推测，有一种更好的方法可以操纵这些可变长度向量，以获得更好的模型。

我想知道是否可以使用所有不同长度的实值输入向量进行机器学习。我知道在文本挖掘方面有一些像词袋方法，但目前还不清楚这种方法如何对实值向量起作用。我知道递归神经网络对可变长度的句子起作用，但我不确定它们是否适用于实值向量。我还考虑过输入缺失的数据;然而，有时它因物理原因而丢失，即在这样的地方不能存在价值，因此将其归咎于违反情况的物质性。

这个领域有没有研究？

递归神经网络（RNN）能够获取长度为n的可变大小的输入向量，并生成长度为m的可变大小的输出向量。

有很多方法可以让RNN发挥作用。最常见的细胞类型称为长期短期记忆（LSTM）和门控递归单位（GRU）。

您可能需要阅读：

The Unreasonable Effectiveness of Recurrent Neural Networks：很高兴知道RNN能够做什么，尤其是角色预测器。它很容易阅读，但不完全是您正在搜索的内容。
Understanding LSTM Networks：更具技术性;写得很好
Sepp Hochreiter，Jurgen Schmidhuber：LONG SHORT-TERM MEMORY
RNNs in TensorFlow

然而，训练RNN需要大量的训练数据。从中计算固定大小的特征向量可能会更好。但你永远都不知道什么时候不去尝试; - ）

使用可变大小的实际输入向量进行机器学习？

1 个答案: