有没有办法用像HDF5这样的磁盘数据训练sklearn模型?

时间:2015-05-22 13:01:36

标签: machine-learning scikit-learn

在我的问题中,我有非常大的数据集,这是我的记忆。我想通过使用像HDF5这样的磁盘数据来训练我的模型。 sklearn是否支持这个或者还有其他选择吗?

1 个答案:

答案 0 :(得分:5)

您要求的是称为核外或流媒体学习。只有scikit-learn模型的子集才能实现增量拟合的partial_fit方法。

有一个example in the documentation。特别是在HDF5中的数据上没有特定的实用工具,但可以调整此示例以从任何外部数据源获取数据(例如,本地磁盘上的HDF5数据或网络上的数据库,例如使用pandas SQL适配器)。