我将使用scikit-learn库为我的SVM实现进行分类。
我的功能'值为0/1,我已将这些值保存在txt文件中,用于标记功能和单独的txt文件。
现在我的问题是如何使用scikit-learn加载我的外部数据集以进行训练和测试阶段?
答案 0 :(得分:1)
将矢量化和特别压缩(稀疏)数据保存在TXT / CSV文件中并不是最佳方法,因为在阅读它时可能会出现问题 - 您将丢失dtypes,压缩/"稀疏性等等..当您无法在内存中读取TXT / CSV文件时,甚至可能会遇到这种情况。
Here您可以看到将稀疏矩阵转换为普通(numpy)的示例,其结尾为MemoryError
。如果您将稀疏(压缩)矩阵保存为CSV,然后尝试将其读回(未压缩),则可能会发生这种情况。
所以我建议你使用pickling:
保存/序列化您的数据:
from sklearn.externals import joblib
joblib.dump(clf, 'filename.pkl')
其中clf
是您训练过的模型或其他稀疏/压缩数据结构
从磁盘读回来:
from sklearn.externals import joblib
clf = joblib.load('filename.pkl')