在我的问题中,我有非常大的数据集,这是我的记忆。我想通过使用像HDF5这样的磁盘数据来训练我的模型。 sklearn是否支持这个或者还有其他选择吗?
答案 0 :(得分:5)
您要求的是称为核外或流媒体学习。只有scikit-learn模型的子集才能实现增量拟合的partial_fit
方法。
有一个example in the documentation。特别是在HDF5中的数据上没有特定的实用工具,但可以调整此示例以从任何外部数据源获取数据(例如,本地磁盘上的HDF5数据或网络上的数据库,例如使用pandas SQL适配器)。