假设我有一组学生的数据集,其中包括收入水平,性别,父母等。教育水平,学校等。目标变量是说,通过或未通过国家考试。我们可以训练机器学习模型来预测,给出这些值,学生是否可能通过或失败(比如sklearn,使用predict_prob,我们可以说是通过的概率)
现在说我有一组不同的信息与以前的数据集无关,其中包括去年和几年前通过该国家考试的学校和该特定学校的学生百分比。比如,学校A:10%,学校B:15%等。
如何使用这些额外的知识来改进我的模型。确保这些数据很有价值。 (某些学校的学生因其教育设施,合格的工作人员等而有更高的通过考试的机会。)
我是否会将此信息作为新功能添加到数据集中?如果是这样,建议的方式是什么。或者我是否在模型预测后使用此信息并以某种方式将这些信息组合起来以获得最终概率?显然,平均值或加权平均值不起作用,因为第二个数据集的概率在20%以下,然后总概率非常低。数据科学家通常如何融入这种先验知识?谢谢
答案 0 :(得分:0)
您可以尝试不同的方式添加此数据,看看您的模型是否能够在此集上学习。你很可能会马上看到,这些额外的数据只会混淆模型。主要是因为您已经为学校的每个学生提供了更精确的数据,模型可以更自由地使用这些信息。 但人工神经网络训练是关于连续试验和错误的,所以你绝对应该尝试用你可以想象的所有可能的数据训练它,看看它是否能够最终得到下降误差。