这是我的问题描述:
“根据家庭收入和财富调查,我们需要找出收入和支出最多的前10%家庭。但是,我们知道这些收集的数据由于许多错误陈述而不可靠。尽管存在这些错误陈述,但我们在数据集中有一些功能肯定是可靠的。但这些特征只是每个家庭财富信息的一小部分。“
不可靠的数据意味着家庭向政府撒谎。这些家庭错误地收入和财富,以不公平地获得更多的政府服务。因此,原始数据中的这些欺诈性陈述将导致不正确的结果和模式。
现在,我有以下问题:
请向我介绍可以帮助我解决此问题的任何想法或参考资料。
提前致谢。
答案 0 :(得分:5)
答:使用特征工程来修复不可靠的数据(对不可靠的数据进行一些转换以使其可靠)或完全删除它们 - 糟糕的功能可能会显着降低模型的质量
问:有没有办法找出这些错误陈述,然后使用机器学习算法报告前10%的富人更准确? 答:ML算法不是魔术棒,除非你告诉他们你在寻找什么,否则他们无法弄明白。你能描述一下'不可靠'的含义吗?如果是,您可以,如我所提到的,使用功能工程或编写将修复数据的代码。否则,没有ML算法将能够帮助您,而无需描述您想要实现的目标问:机器学习中是否有任何想法或应用试图提高收集数据的质量?
答:我不这么认为只是因为问题本身太开放了。什么意思'数据的质量'?一般来说,您需要考虑以下几点:
1)花一些时间在Google搜索功能工程指南上。它们涵盖了如何为您准备数据ML算法,优化它,修复它。具有良好功能的良好数据可显着提高结果。
2)您无需使用原始数据中的所有功能。原始数据集的某些功能没有意义,您无需使用它们。尝试从数据集上的scikit-learn运行梯度增强机器或随机森林分类器来执行分类(或回归,如果进行回归)。这些算法还评估原始数据集的每个特征的重要性。部分功能对分类的重要性极低,因此您可能希望完全删除它们,或者尝试将不重要的功能组合在一起以产生更重要的功能。