使用不准确(不正确)的数据集

时间:2015-06-23 07:53:35

标签: machine-learning data-quality

这是我的问题描述:

“根据家庭收入和财富调查,我们需要找出收入和支出最多的前10%家庭。但是,我们知道这些收集的数据由于许多错误陈述而不可靠。尽管存在这些错误陈述,但我们在数据集中有一些功能肯定是可靠的。但这些特征只是每个家庭财富信息的一小部分。“

不可靠的数据意味着家庭向政府撒谎。这些家庭错误地收入和财富,以不公平地获得更多的政府服务。因此,原始数据中的这些欺诈性陈述将导致不正确的结果和模式。

现在,我有以下问题:

  • 我们应该如何处理数据科学中不可靠的数据?
  • 有没有办法找出这些错误陈述,然后使用机器学习算法报告前10%的富人更准确? - 我们如何评估本研究中的错误?由于我们有未标记的数据集,我应该寻找标签技术吗?或者,我应该使用无监督的方法吗?或者,我应该使用半监督学习方法吗?
  • 机器学习中是否有任何想法或应用试图提高收集数据的质量?

请向我介绍可以帮助我解决此问题的任何想法或参考资料。

提前致谢。

1 个答案:

答案 0 :(得分:5)

问:我们应该如何处理数据科学中不可靠的数据

答:使用特征工程来修复不可靠的数据(对不可靠的数据进行一些转换以使其可靠)或完全删除它们 - 糟糕的功能可能会显着降低模型的质量

问:有没有办法找出这些错误陈述,然后使用机器学习算法报告前10%的富人更准确?

答:ML算法不是魔术棒,除非你告诉他们你在寻找什么,否则他们无法弄明白。你能描述一下'不可靠'的含义吗?如果是,您可以,如我所提到的,使用功能工程或编写将修复数据的代码。否则,没有ML算法将能够帮助您,而无需描述您想要实现的目标

问:机器学习中是否有任何想法或应用试图提高收集数据的质量?

答:我不这么认为只是因为问题本身太开放了。什么意思'数据的质量'?

一般来说,您需要考虑以下几点:

1)花一些时间在Google搜索功能工程指南上。它们涵盖了如何为您准备数据ML算法,优化它,修复它。具有良好功能的良好数据可显着提高结果。

2)您无需使用原始数据中的所有功能。原始数据集的某些功能没有意义,您无需使用它们。尝试从数据集上的scikit-learn运行梯度增强机器或随机森林分类器来执行分类(或回归,如果进行回归)。这些算法还评估原始数据集的每个特征的重要性。部分功能对分类的重要性极低,因此您可能希望完全删除它们,或者尝试将不重要的功能组合在一起以产生更重要的功能。