奇怪的是,它似乎与fit和partial_fit完全相同。
您可以在以下链接中看到代码:
https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L478
答案 0 :(得分:8)
不完全相同的代码; partial_fit
使用total_samples
:
" total_samples:int,optional(default = 1e6) 文件总数。仅在partial_fit方法中使用。"
https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L184
(部分适合)https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L472
(适合)https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L510
以防万一您感兴趣:partial_fit
是一个很好的候选者,只要您的数据集非常大,就可以使用它。因此,不要遇到可能的记忆问题,而是以较小的批次进行拟合,这称为增量学习。
因此,在您的情况下,您应该考虑total_samples
默认值为1000000.0
。因此,如果您不更改此数字并且实际样本数量较大,那么您将从fit
方法和fit_partial
获得不同的结果。或者可能是您在fit_partial
中使用小批量而不是覆盖您为fit
方法提供的所有样本的情况。即使你这样做,你也可以获得不同的结果,如文档中所述:
sklearn文档:https://scikit-learn.org/0.15/modules/scaling_strategies.html#incremental-learning