因此,我想在简单的一维数据上使用sklearn的内核密度模块,但该数据有点庞大。它必须从大约1.5亿行的输入文件中逐行读取,而我最终将从该文件中获得约75亿个数据点。所有数据均为DNA序列图的计数,因此均为整数。对于较小的数据集,我可以将一个numpy数组传递给内核密度的fit()函数。但是,在这种情况下,我不确定最有效的方法是什么。 Python阵列似乎需要更多的内存,对此我有点担心。我听说numpy数组的内存使用效率更高,但是追加到numpy数组将需要将原始数组的元素复制到新元素中,这在时间上效率不高。因此,在这种情况下,我想获得一些有关如何最有效地执行操作的建议(可能还有其他一些用于数据存储的软件包?),如果您对如何缩短内核密度的运行时间有任何建议,我也将不胜感激。大型数据集。