数据科学:使用推论统计来标记训练数据集

时间:2017-08-06 05:08:14

标签: pandas machine-learning statistics data-science

偏远地区缺乏高中是发展中国家学生的一个问题。某些地方的学生比其他地方的学生要好。所以,我必须找到那些位置。现在,主要问题是定义"更好"。我已经制定了一些规则来定义一个位置的配置文件。

现在,我关心的是好学生。 所以,我所做的是 - 1.使用一些推论统计并制定一些规则来得出结论,位置A,B,C等是您可以放置​​高中的最有可能的位置,因为根据我的规则,这些位置包含优质学生。 / p>

我做了以上所有事情来标记数据,因为我需要定义"更好"并标记数据,以便我现在可以使用机器学习算法来学习使位置成为潜在位置的因素,这样如果我将测试数据中的数据点提供给模型,它将立即判断位置是否更好

方法概述: 对于每个位置,我有以下4个信息: total_students_staying_for_high_school_education(A) total_students_leaving_for_high_school_education_in_another_place (B), mean_grade_point_of_students_of_type_B 比率(以B / A计算)

对于比率>的位置1

  • 我应用卡方显着性检验得出一个统计数据,告诉我学生离开那个地方的数量是否大于留下的数量。我使用ANOVA,然后使用Tukey测试来比较means_grade点,然后找到位置对的组合,这些位置的平均值不同,并且大于其他位置。

  • 然后我用自定义比较器编写了一个python程序,首先比较这些点的mean_grade是否变化并返回具有更大均值的那个。如果平均值不变,则比较器将使用卡方值较大的位置返回位置。

这是怎样的,整个过程提出了很少的位置建议,我称这些位置为#34;更好"。

我关注的是 -  1.如何验证我的规则是否有效?或者我甚至需要验证它?  2.最重要的是,如上所述,通过机器学习将统计数据混合在一起是一种合适的方法吗?方法中是否存在重大泄漏?有人能提出更通用的方法吗?

0 个答案:

没有答案