Question

我有一个像

这样的数据集

 Project | Area       | Feature 1 | Feature 2 |
---------+------------+-----------+-----------+...
 A       | Production |     X     |     X     |
 A       | Testing    |     Y     |     Y     |
 B       | Testing    |     Z     |     Z     |
 C       | QA         |     W     |     W     |

这里“区域”取决于项目（即区域和项目的组合构成区域的身份）并且它们具有多对多的关系。我正在使用Keras使用深度神经网络预测 Area 。我该如何预处理这些数据？

项目是一个非常重要的特征。

是否有任何近似X个特征所需的训练数据的公式？

Answer 1

拥有相关功能本身并不是问题。这些问题通常表现为当您在训练时和预测时没有相同的输入功能时。

还要确保关系有意义。在某些情况下，它可以导致更准确的结果，您可能会解释错误的方式，或模型记忆结果。在不了解更多问题的情况下，在这里提供体面的建议真的很难。

至于例子的数量，它实际上取决于问题的复杂性。即使对于单个输入，如果你想要学习的是一个常量函数，一个例子就足够了，但如果你想学习一个哈希函数，你将需要更多，甚至那时它可能无法工作或制作错误。我的建议是用你所拥有的东西训练它，检查损失的进展情况并从那里推断出来。

处理机器学习中的相关功能

1 个答案: