如何在选择任何机器学习算法之前进行数据探索

时间:2017-01-09 14:04:37

标签: machine-learning data-science

任何工具都可以帮助识别数据分布模式,然后决定选择ML算法吗?

1 个答案:

答案 0 :(得分:0)

首先,您必须将机器学习理解为一个领域,并对其子领域有所了解。如果您没有直观地理解您的工具,那么您将无法确定何时使用它们。

您正在谈论的这个想法被称为探索性数据分析,如果您以正确的方式思考它,它可以非常平易近人。从科学方法的角度思考:

首先,查看数据以及有关它的任何文档。

然后,对可能存在的模式提出一些假设。

根据您对ML的理解,集体讨论可能会对您的假设有所了解的一些方法。例如,如果您看到建议的从属值可以有多个不同的值,则会出现分类问题,并且根据您的输入数据,您应该选择适当的方法。

您可能觉得有用的工具很多,但一个好的开始可能是编程语言R或Python。两者都是非常强大的数据科学工具。 R具有更大的学习曲线,但考虑到数据科学。另一方面,Python非常容易上手,但是对于ML和数据科学库,你有更多的选择。使用Python,查看Pandas以查找CSV和数据,以及Tensorflow,Theano或Scikit-Learn进行数据分析和ML。

希望这有帮助!