批处理操作的熊猫性能是否等同于SQL?

时间:2018-08-14 07:17:29

标签: sql pandas

我正在使用Pandas DataFrame以便根据某种条件(例如df['start_date' > datetime.now()]等在大表中进行搜索)。未对DataFrame进行排序或索引。

pandas是否为批处理操作提供类似的性能,例如在使用SQL子句时是否像WHERE

1 个答案:

答案 0 :(得分:0)

如果您真的对SQL和Pandas之间的速度比较感兴趣,请there's a good article here on it。 TLDR是:它们具有可比性,在大多数情况下(包括过滤),SQL更快,而在其他一些方面,Pandas则更快。

两者的性能都会受到执行机器的影响。在SQL Server上放置一堆RAM可以加快速度,而带有大图形卡的笔记本电脑可以处理使用向量化的熊猫函数。

值得思考的是,在速度性能方面可以接受的标准是什么。 Python有一些类似Dask的模块,这些模块是专门为快速处理大数据而设计的,因此如果Pandas的执行速度太慢而无法满足您的需求,那么可能值得一看。