应用错误收集

时间：2019-06-10 03:06:28

标签： scikit-learn sklearn-pandas

现在我有10GB的数据集用于在sklearn中训练模型，但是我的计算机只有8GB的内存，所以除了增量分类器外，我还有其他方法。

答案 0 :(得分：0)

如果技术正确，我认为sklearn可用于更大的数据。如果您选择的算法支持partial_fit或在线学习方法，那么您将步入正轨。 chunk_size可能会影响您的成功

您可以做的另一件事是随机选择是否在csv文件中保留一行...并将结果保存到.npy文件中，以便更快地加载。这样一来，您将获得数据样本，这将使您可以开始使用所有算法进行处理……并一路处理更大的数据问题（或根本不处理！有时，采用良好方法的样本就足够了取决于您想要的。）