我是python和机器学习的初学者。我发现很难加载大型数据集(500个观测值×300个特征)进行训练和分类。请提供加载大量数据的代码。
答案 0 :(得分:1)
以下是三个选项:
将数据直接加载到列表列表中
>>> data = [line.strip().split(',') for line in open('arrhythmia.txt')]
每个值都将作为字符串读取,您必须决定如何处理它,但您将拥有最大的灵活性。
使用numpy.genfromtext,它会将数据读入numpy
ndarray并处理数据中出现的非数字值(“?”)。< / p>
使用pandas.read_csv,它与numpy.genfromtext
类似,但会将数据读入pandas.DataFrame个对象。这要求您还拥有pandas
模块,但提供了一些不错的附加功能(如命名列/属性)。
应该注意的是,对于“如何从文本文件中读取逗号分隔数据值的二维数组”这一问题,这更恰当地是一个答案,因为您的数据文件大小不超过400KB,根据当前(2016)标准,它几乎不被视为“大数据集”。