sklearn中的模型如何处理python中的大数据集?

时间:2019-06-10 03:06:28

标签: scikit-learn sklearn-pandas

现在我有10GB的数据集用于在sklearn中训练模型,但是我的计算机只有8GB的内存,所以除了增量分类器外,我还有其他方法。

1 个答案:

答案 0 :(得分:0)

如果技术正确,我认为sklearn可用于更大的数据。如果您选择的算法支持partial_fit或在线学习方法,那么您将步入正轨。 chunk_size可能会影响您的成功

此链接可能有用( Working with big data in python and numpy, not enough ram, how to save partial results on the disc?

您可以做的另一件事是随机选择是否在csv文件中保留一行...并将结果保存到.npy文件中,以便更快地加载。这样一来,您将获得数据样本,这将使您可以开始使用所有算法进行处理……并一路处理更大的数据问题(或根本不处理!有时,采用良好方法的样本就足够了取决于您想要的。)