应用错误收集

有没有办法用像HDF5这样的磁盘数据训练sklearn模型？

时间：2015-05-22 13:01:36

标签： machine-learning scikit-learn

在我的问题中，我有非常大的数据集，这是我的记忆。我想通过使用像HDF5这样的磁盘数据来训练我的模型。 sklearn是否支持这个或者还有其他选择吗？

1 个答案:

答案 0 :(得分：5)

您要求的是称为核外或流媒体学习。只有scikit-learn模型的子集才能实现增量拟合的partial_fit方法。

有一个example in the documentation。特别是在HDF5中的数据上没有特定的实用工具，但可以调整此示例以从任何外部数据源获取数据（例如，本地磁盘上的HDF5数据或网络上的数据库，例如使用pandas SQL适配器）。