Pandas矢量化操作不适用于大型数据集

时间:2016-06-19 21:25:10

标签: python pandas vectorization

我运行了以下代码,发现它在相当小的数据集上按预期工作,但在大数据集上没有。你可以自己试试:

import pandas as pd
import numpy as np

# generating dataframe of one million observations
observations = 1000000
df = pd.DataFrame(np.random.randint(0,100,size=(observations, 1)), columns=['A'])

for i in range(50):
   if (df.A + 2).equals(df.A + 2) == False:
      print('why?')

在我的机器上,字符串'为什么?'得到印刷约4次。我不知道为什么会得到这个结果,我希望有人会对这个问题有所了解。

1 个答案:

答案 0 :(得分:2)

完全卸载所有Python版本和软件包后,我重新安装了Anaconda。这解决了我的问题。我不确切知道我遇到的问题的原因......我一定是搞砸了Python的包或版本。

感谢有助于我了解所需内容的评论!