Question

描述

我正在使用scikit-learn机器学习算法运行python代码，其中输入表的大小接近100GB。请查看以下错误消息： - ＆gt;

Traceback (most recent call last):
File "/home/sasdemo/python/pipeline.py", line 130, in
Loading data from /XIVData/eecteam/casData/imsimDatalabel_10M.csv
Loading completed in 1560.0 seconds
##################
DecisionTreeRegressor
##################
Start time = Mon Oct 30 07:35:48 2017
min_samples_leaf=min_leaf_size), 'y')
File "/home/sasdemo/python/pipeline.py", line 74, in train_model
model.fit(X_train[predictors], X_train[target])
File "/opt/anaconda2/lib/python2.7/site-packages/sklearn/tree/tree.py", line 1029, in fit
X_idx_sorted=X_idx_sorted)
File "/opt/anaconda2/lib/python2.7/site-packages/sklearn/tree/tree.py", line 122, in fit
X = check_array(X, dtype=DTYPE, accept_sparse="csc")
File "/opt/anaconda2/lib/python2.7/site-packages/sklearn/utils/validation.py", line 382, in check_array
array = np.array(array, dtype=dtype, order=order, copy=copy)
**MemoryError**

代码读取csv输入文件，创建Pandas数据帧。此外，当您使用以下语句调用算法/建模技术来创建模型时，它会在内部尝试创建数字＆＃39;从Pandas数据帧创建副本时出现内存问题的数组。

model.fit(X_train[predictors], X_train[target])

使用任何机器学习算法时都会出现此问题。

请求专家帮助我巩固对该问题的理解。任何其他想法或建议或参考将不胜感激。

使用Python / Anaconda版本 - Python 2.7.13 :: Anaconda 4.3.1（64位）

使用100GB输入表执行Python代码时出现MemoryError

0 个答案: