我有一个像
这样的数据集 Project | Area | Feature 1 | Feature 2 |
---------+------------+-----------+-----------+...
A | Production | X | X |
A | Testing | Y | Y |
B | Testing | Z | Z |
C | QA | W | W |
这里“区域”取决于项目(即区域和项目的组合构成区域的身份)并且它们具有多对多的关系。我正在使用Keras使用深度神经网络预测 Area 。我该如何预处理这些数据?
项目是一个非常重要的特征。
是否有任何近似X个特征所需的训练数据的公式?
答案 0 :(得分:0)
拥有相关功能本身并不是问题。这些问题通常表现为当您在训练时和预测时没有相同的输入功能时。
还要确保关系有意义。在某些情况下,它可以导致更准确的结果,您可能会解释错误的方式,或模型记忆结果。在不了解更多问题的情况下,在这里提供体面的建议真的很难。
至于例子的数量,它实际上取决于问题的复杂性。即使对于单个输入,如果你想要学习的是一个常量函数,一个例子就足够了,但如果你想学习一个哈希函数,你将需要更多,甚至那时它可能无法工作或制作错误。我的建议是用你所拥有的东西训练它,检查损失的进展情况并从那里推断出来。