我只是想了解一些关于如何在将数据输入机器学习算法之前对其进行预处理的一般提示。我正在努力进一步理解为什么我们在预处理时做出不同的决定,如果有人可以通过我们在清理数据时需要考虑的所有不同的事情,删除多余的数据等等。我会发现它非常有用。我在网上搜索了一些规范的答案或经验法则,但似乎没有。
我在.tsv文件中有一组数据here。训练集总计7,000行,测试集为3,000行。如果100行不可读,我应该使用哪些不同的策略来处理格式错误的数据? 500? 1000?任何帮助我理解这一点的指导都将非常感激。
示例代码很棒,但如果您不喜欢它,则没有必要,我只是想了解我应该做什么! :)
由于
答案 0 :(得分:18)
有很多事情需要根据实际数据来决定。它并不像在获取数据时总是命名几个步骤那么简单。
但是,我可以尝试列举一些通常有用的东西。不过,第一个也是最重要的是彻底分析数据并尽力“理解它们”。了解数据以及抓取和收集数据背后的所有背景是必不可少的部分。如果您了解数据或噪音的缺失,那么您可以知道如何处理它。
我会尝试给你一些提示,但是:
总结,一般来说真的很难回答。如何避免“使事情变得更糟”的好方法是从删除所有“坏的价值”开始。只需删除缺少值或错误值的所有行。如前所述转换所有其他值并尝试获取您的第一个结果。然后,您将更好地了解所有数据,并且您将更好地了解在哪里寻找任何改进。
如果您对特定的“预处理问题”有任何疑问,我将很乐意编辑此答案,并添加更多如何处理它的想法。