应用错误收集

处理多个类别输入和可变大小的组作为神经网络的输入

时间：2019-07-30 19:55:38

标签： python machine-learning keras neural-network embedding

我正在处理包含数字和分类特征的数据，其中每个输入都包含一组可变大小的特征。例如：通过使用房屋中每个房间的特征来预测房屋的价格，并且每个房屋可能拥有不同数量的房间。功能可以是米的大小，类型（例如客厅/浴室/卧室），颜色，地板... 一些分类功能具有很高的基数，我可能正在使用许多功能。我想使用n个房间的功能来预测每个房子的价格。如何构造输入/ nn模型以接收可变大小的输入组？

我曾想过使用单点编码，但是最终我得到了很大的输入向量，并且失去了每个房间要素之间的联系。我还考虑过使用嵌入，但是我不确定最好的方法是组合特征/样本以正确输入所有数据，而不会丢失有关哪些特征来自哪些样本等的任何信息。

1 个答案:

答案 0 :(得分：0)

正如下面的链接所暗示的，建议...您已经选择了三种途径之一。

我认为序数编码不是您的示例的正确用例
您已有效排除的一种热编码。
差异编码，我认为它有点合适，因为有主卧，小卧，客卧和儿童卧。因此，尝试该角度。

Link to the beautiful article

快乐编码：）