为机器学习准备数据集的正确方法是什么?

时间:2013-10-14 12:59:10

标签: python machine-learning data-analysis statistics

首先,感谢您阅读本文。

在机器学习方面,我是一个菜鸟,我正在尝试使用ML来分类一些数据。现在我已经对有监督和无监督的学习算法做了一些基本的阅读,比如决策树,聚类,神经网络..等等。

我正在努力理解的是为ML问题准备数据集的正确整体程序。

如何为ML准备数据集以便我可以测量算法的准确性?

我目前的理解是,为了评估准确性,算法应该使用预先标记的结果(来自数据集的重要子集?),以便评估预期结果与算法决策之间的差异?

如果这是正确的,那么如何预先标记大型数据集呢?我的数据集很大,手动标记不可行。

此外,非常感谢任何有关使用Python进行机器学习的提示!

非常感谢您的帮助!

致以最诚挚的问候,

麦克

1 个答案:

答案 0 :(得分:4)

这是任何机器学习算法中最重要的部分。您需要构建数据集,提取,制作,缩放,规范化功能。

如果您想使用某种监督学习算法,则需要标记数据。有几种方法可以实现这一目标:

  1. 手工勒布。
  2. 使用一些无监督学习算法来标记数据。
  3. 你需要使用一些python机器学习工具包,例如 - scikit-learn。 scikit-learn包含许多用于数据修改,特征提取和预处理的有用工具。例如,它可以使用DictVictorizer对您的数据进行矢量化。您可以仅使用scikit-learn添加缺失值,缩放和规范化功能。

    我建议从这里的示例开始 - http://scikit-learn.org/stable/