应用错误收集

这是我的问题描述：

“根据家庭收入和财富调查，我们需要找出收入和支出最多的前10％家庭。但是，我们知道这些收集的数据由于许多错误陈述而不可靠。尽管存在这些错误陈述，但我们在数据集中有一些功能肯定是可靠的。但这些特征只是每个家庭财富信息的一小部分。“

不可靠的数据意味着家庭向政府撒谎。这些家庭错误地收入和财富，以不公平地获得更多的政府服务。因此，原始数据中的这些欺诈性陈述将导致不正确的结果和模式。

现在，我有以下问题：

我们应该如何处理数据科学中不可靠的数据？
有没有办法找出这些错误陈述，然后使用机器学习算法报告前10％的富人更准确？ - 我们如何评估本研究中的错误？由于我们有未标记的数据集，我应该寻找标签技术吗？或者，我应该使用无监督的方法吗？或者，我应该使用半监督学习方法吗？
机器学习中是否有任何想法或应用试图提高收集数据的质量？

请向我介绍可以帮助我解决此问题的任何想法或参考资料。

提前致谢。

问：我们应该如何处理数据科学中不可靠的数据

答：使用特征工程来修复不可靠的数据（对不可靠的数据进行一些转换以使其可靠）或完全删除它们 - 糟糕的功能可能会显着降低模型的质量

问：有没有办法找出这些错误陈述，然后使用机器学习算法报告前10％的富人更准确？

答：ML算法不是魔术棒，除非你告诉他们你在寻找什么，否则他们无法弄明白。你能描述一下'不可靠'的含义吗？如果是，您可以，如我所提到的，使用功能工程或编写将修复数据的代码。否则，没有ML算法将能够帮助您，而无需描述您想要实现的目标

问：机器学习中是否有任何想法或应用试图提高收集数据的质量？

答：我不这么认为只是因为问题本身太开放了。什么意思'数据的质量'？

一般来说，您需要考虑以下几点：

1）花一些时间在Google搜索功能工程指南上。它们涵盖了如何为您准备数据ML算法，优化它，修复它。具有良好功能的良好数据可显着提高结果。

2）您无需使用原始数据中的所有功能。原始数据集的某些功能没有意义，您无需使用它们。尝试从数据集上的scikit-learn运行梯度增强机器或随机森林分类器来执行分类（或回归，如果进行回归）。这些算法还评估原始数据集的每个特征的重要性。部分功能对分类的重要性极低，因此您可能希望完全删除它们，或者尝试将不重要的功能组合在一起以产生更重要的功能。

使用不准确（不正确）的数据集

1 个答案: