如何加载数据集包含scikit-learn中的txt文件

时间:2017-01-30 15:36:02

标签: scikit-learn dataset svm

我将使用scikit-learn库为我的SVM实现进行分类。

我的功能'值为0/1,我已将这些值保存在txt文件中,用于标记功能和单独的txt文件。

现在我的问题是如何使用scikit-learn加载我的外部数据集以进行训练和测试阶段?

1 个答案:

答案 0 :(得分:1)

将矢量化和特别压缩(稀疏)数据保存在TXT / CSV文件中并不是最佳方法,因为在阅读它时可能会出现问题 - 您将丢失dtypes,压缩/"稀疏性等等..当您无法在内存中读取TXT / CSV文件时,甚至可能会遇到这种情况。

Here您可以看到将稀疏矩阵转换为普通(numpy)的示例,其结尾为MemoryError。如果您将稀疏(压缩)矩阵保存为CSV,然后尝试将其读回(未压缩),则可能会发生这种情况。

所以我建议你使用pickling

保存/序列化您的数据:

from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl') 

其中clf是您训练过的模型或其他稀疏/压缩数据结构

从磁盘读回来:

from sklearn.externals import joblib
clf = joblib.load('filename.pkl')