对我的英语表达,我很抱歉。对我来说很难。
我有一个神经网络,其特征位于np数组中,并且在模型转换之前,我的特征存储在张量中。形状为(4000,6),因为我有6个不同的特征
我添加了词汇功能。我将其转换为一热向量,并将其转换为张量,因此结果的形状为(4000,243)。
在训练之前,我会合并这两个张量,所以我得到的结果张量的形状为(4000,249)。
我想知道我的学习是否会受到此影响(6个特征和另一个编码在张量中的243个条目上)。 我担心是否会应用神经网络。
这是一个问题,还是与张量中的其他243个条目相比,我的6个第一个特征将继续具有最好的考虑?
非常感谢您的回答和帮助。
答案 0 :(得分:0)
是的,您的担心是正确的,在代表模型的同时对其中一项功能进行热编码会很不好,它将倾向于对不同的功能进行优先级排序,现在根据一些标准对哪些功能进行优先级排序。
案例1:您已将其他输入归一化为介于0和1之间,在这种情况下,以一种热编码表示的特征将倾向于主导模型预测。
情况2:您尚未对其他输入进行归一化,这将产生灾难性的影响,但它将抵消来自一个热编码矢量的巨大影响。
这些都不是机器学习场景的理想选择,我建议您删除特征的一种热编码,然后对数据集进行规范化,然后再训练模型,这将确保对所有特征的影响学习是基于他们对输出的预测,而不偏向于任何特定功能。
如果您有任何疑问或无法理解某些事物的逻辑,请随时发表评论。