处理机器学习中的相关功能

时间:2017-12-22 12:16:30

标签: tensorflow machine-learning neural-network keras

我有一个像

这样的数据集
 Project | Area       | Feature 1 | Feature 2 |
---------+------------+-----------+-----------+...
 A       | Production |     X     |     X     |
 A       | Testing    |     Y     |     Y     |
 B       | Testing    |     Z     |     Z     |
 C       | QA         |     W     |     W     |

这里“区域”取决于项目(即区域和项目的组合构成区域的身份)并且它们具有多对多的关系。我正在使用Keras使用深度神经网络预测 Area 。我该如何预处理这些数据?

项目是一个非常重要的特征。

是否有任何近似X个特征所需的训练数据的公式?

1 个答案:

答案 0 :(得分:0)

拥有相关功能本身并不是问题。这些问题通常表现为当您在训练时和预测时没有相同的输入功能时。

还要确保关系有意义。在某些情况下,它可以导致更准确的结果,您可能会解释错误的方式,或模型记忆结果。在不了解更多问题的情况下,在这里提供体面的建议真的很难。

至于例子的数量,它实际上取决于问题的复杂性。即使对于单个输入,如果你想要学习的是一个常量函数,一个例子就足够了,但如果你想学习一个哈希函数,你将需要更多,甚至那时它可能无法工作或制作错误。我的建议是用你所拥有的东西训练它,检查损失的进展情况并从那里推断出来。