处理多个类别输入和可变大小的组作为神经网络的输入

时间:2019-07-30 19:55:38

标签: python machine-learning keras neural-network embedding

我正在处理包含数字和分类特征的数据,其中每个输入都包含一组可变大小的特征。 例如:通过使用房屋中每个房间的特征来预测房屋的价格,并且每个房屋可能拥有不同数量的房间。功能可以是米的大小,类型(例如客厅/浴室/卧室),颜色,地板... 一些分类功能具有很高的基数,我可能正在使用许多功能。 我想使用n个房间的功能来预测每个房子的价格。 如何构造输入/ nn模型以接收可变大小的输入组?

我曾想过使用单点编码,但是最终我得到了很大的输入向量,并且失去了每个房间要素之间的联系。 我还考虑过使用嵌入,但是我不确定最好的方法是组合特征/样本以正确输入所有数据,而不会丢失有关哪些特征来自哪些样本等的任何信息。

1 个答案:

答案 0 :(得分:0)

正如下面的链接所暗示的,建议...您已经选择了三种途径之一。

  • 我认为序数编码不是您的示例的正确用例
  • 您已有效排除的一种热编码。
  • 差异编码,我认为它有点合适,因为有主卧,小卧,客卧和儿童卧。因此,尝试该角度。

Link to the beautiful article

快乐编码:)