如何导入大型数据集?

时间:2016-04-29 13:18:33

标签: python machine-learning

我是python和机器学习的初学者。我发现很难加载大型数据集(500个观测值×300个特征)进行训练和分类。请提供加载大量数据的代码。

1 个答案:

答案 0 :(得分:1)

以下是三个选项:

  1. 将数据直接加载到列表列表中

    >>> data = [line.strip().split(',') for line in open('arrhythmia.txt')]
    

    每个值都将作为字符串读取,您必须决定如何处理它,但您将拥有最大的灵活性。

  2. 使用numpy.genfromtext,它会将数据读入numpy ndarray并处理数据中出现的非数字值(“?”)。< / p>

  3. 使用pandas.read_csv,它与numpy.genfromtext类似,但会将数据读入pandas.DataFrame个对象。这要求您还拥有pandas模块,但提供了一些不错的附加功能(如命名列/属性)。

  4. 应该注意的是,对于“如何从文本文件中读取逗号分隔数据值的二维数组”这一问题,这更恰当地是一个答案,因为您的数据文件大小不超过400KB,根据当前(2016)标准,它几乎不被视为“大数据集”。