逐个单元比较熊猫数据帧时的性能问题

时间:2020-07-24 02:55:19

标签: python python-3.x pandas numpy pyspark-dataframes

我有2个数据帧要逐个单元地进行比较。以下是我编写的python代码,但存在性能问题。 在每个数据帧中处理大约40万行(90列)需要2分钟。 以2个数据帧df1和df2为例:

df_diff = (df1 != df2).stack(dropna=None)

df1 = df1.stack()[df_dff]
df2 = df2.stack()[df_dff] 

final = pd.concat( [df1,df2], axis=1 )
final.reset_index(inplace=True)
final.columns = ['row_id', 'Attribute', 'Actual', 'Expected']

我需要在个人笔记本电脑上运行此代码,因此我认为在熊猫上使用dask或spark数据框不会带来任何其他改善性能的好处,但是如果您将这些工具中的任何一个用于以上,我很高兴听到您的建议熊猫可以在人员笔记本电脑上运行时提高性能

谢谢

0 个答案:

没有答案