应用错误收集

如果您将数据迭代地分块为适合内存的10k或100k文档批处理，那么

HashingVectorizer将起作用。

然后，您可以将批量转换后的文档传递给支持partial_fit方法的线性分类器（例如SGDClassifier或PassiveAggressiveClassifier），然后迭代新批次。

您可以开始在保留的验证集（例如10k文档）上对模型进行评分，以便在不等待看到所有样本的情况下监控部分训练模型的准确性。

您也可以在数据分区上的多台计算机上并行执行此操作，然后对生成的coef_和intercept_属性求平均值，以获得所有数据集的最终线性模型。

我在2013年3月在PyData上发表的演讲中讨论过这个问题：http://vimeo.com/63269736