我正在使用Pandas
DataFrame
以便根据某种条件(例如df['start_date' > datetime.now()]
等在大表中进行搜索)。未对DataFrame进行排序或索引。
pandas
是否为批处理操作提供类似的性能,例如在使用SQL
子句时是否像WHERE
?
答案 0 :(得分:0)
如果您真的对SQL和Pandas之间的速度比较感兴趣,请there's a good article here on it。 TLDR是:它们具有可比性,在大多数情况下(包括过滤),SQL更快,而在其他一些方面,Pandas则更快。
两者的性能都会受到执行机器的影响。在SQL Server上放置一堆RAM可以加快速度,而带有大图形卡的笔记本电脑可以处理使用向量化的熊猫函数。
值得思考的是,在速度性能方面可以接受的标准是什么。 Python有一些类似Dask的模块,这些模块是专门为快速处理大数据而设计的,因此如果Pandas的执行速度太慢而无法满足您的需求,那么可能值得一看。