应用错误收集

查看源代码。

当您访问源时，不要依赖网络论坛上的人来猜测该功能的作用。原因很简单：它可能因版本而异。因此，对于其他版本，我可能会给您正确的答案...

您是否一次调用了整个数据上的partial_fit？那不是你应该做的。一次只能处理一批。

内存问题可能是由于仍然可以访问并且没有垃圾回收（例如未转换的数据）的旧数据引起的，还可能是由于参数不同所致。如果您仔细研究Birch论文，您会发现它期望对内存的控制要比现今的Python等语言更紧密，并且在现代操作系统上无法重现。 >

但是您应该考虑的主要问题是以下两个：

此数据上的Birch聚类质量真的足够好吗？还是您正在努力解决错误的问题？
如果仅使用50％的“大”数据，质量会降低多少？从统计上来说不重要...该方法基于聚合，并且此类聚合的精度随sqrt（n）的增长而增加...也就是说，添加越来越多的数据都无关紧要。