描述
我正在使用scikit-learn机器学习算法运行python代码,其中输入表的大小接近100GB。请查看以下错误消息: - >
Traceback (most recent call last):
File "/home/sasdemo/python/pipeline.py", line 130, in
Loading data from /XIVData/eecteam/casData/imsimDatalabel_10M.csv
Loading completed in 1560.0 seconds
##################
DecisionTreeRegressor
##################
Start time = Mon Oct 30 07:35:48 2017
min_samples_leaf=min_leaf_size), 'y')
File "/home/sasdemo/python/pipeline.py", line 74, in train_model
model.fit(X_train[predictors], X_train[target])
File "/opt/anaconda2/lib/python2.7/site-packages/sklearn/tree/tree.py", line 1029, in fit
X_idx_sorted=X_idx_sorted)
File "/opt/anaconda2/lib/python2.7/site-packages/sklearn/tree/tree.py", line 122, in fit
X = check_array(X, dtype=DTYPE, accept_sparse="csc")
File "/opt/anaconda2/lib/python2.7/site-packages/sklearn/utils/validation.py", line 382, in check_array
array = np.array(array, dtype=dtype, order=order, copy=copy)
**MemoryError**
代码读取csv输入文件,创建Pandas数据帧。此外,当您使用以下语句调用算法/建模技术来创建模型时,它会在内部尝试创建数字'从Pandas数据帧创建副本时出现内存问题的数组。
model.fit(X_train[predictors], X_train[target])
使用任何机器学习算法时都会出现此问题。
请求专家帮助我巩固对该问题的理解。任何其他想法或建议或参考将不胜感激。
使用Python / Anaconda版本 - Python 2.7.13 :: Anaconda 4.3.1(64位)