我有很多数据,我希望通过拆分我的数据并拟合在多个线程或多台机器上运行的多个估算器来并行化估算器拟合。
某些估算工具提供了用于核外学习的partial_fit API(例如PassiveAggressiveClassifier
here)
是否可以将多个估算器部分拟合,然后将它们各自的拟合合并为一个估算器?
答案 0 :(得分:1)
不使用标准API。您可以平均coef_
和intercept_
,这将生成有意义的估算工具。您想要在一个核心或网络上并行化吗?可能会有更有效的选项,其中大部分需要更多的工作。
有SGD的并行实现,但这些可能只需支付巨大的数据集。您的数据有多大(样本数量,特征数量,稀疏度)?