Question

我有1200万行和9列CSV文件。

我遇到一个Keyword错误，而不是MemoryError，不是重复错误问题。

我需要阅读它，每个2nd lowest rate得到zipcode。

我已经读过要使用CSV文件中的大型数据集，您需要分块读取它们并将代码应用于每个块。

我有这个

import pandas as pd
import csv


for df in pd.read_csv('slcsp/new_df.csv', sep='\t', iterator=True, chunksize=1000):
        df.groupby('zipcode').rate.nsmallest(2).reset_index().drop('level_1',1) \
        .drop_duplicates(subset=['zipcode'], keep='last')

但是出现错误：

KeyError：“邮政编码” ＃但有一个名为zipcode

的列

我已经检查过，并且有一列名为zipcode。

Traceback (most recent call last):
  File "slcsp/slcsp.py", line 19, in <module>
    df.loc[df.groupby('zipcode').rate.rank(method='first').eq(2),['zipcode','rate']]
  File "D:\virtual_envs\web_scrapping\lib\site-packages\pandas\core\generic.py", line 7632, in groupby
    observed=observed, **kwargs)
  File "D:\virtual_envs\web_scrapping\lib\site-packages\pandas\core\groupby\groupby.py", line 2110, in groupby
    return klass(obj, by, **kwds)
  File "D:\virtual_envs\web_scrapping\lib\site-packages\pandas\core\groupby\groupby.py", line 360, in __init__
    mutated=self.mutated)
  File "D:\virtual_envs\web_scrapping\lib\site-packages\pandas\core\groupby\grouper.py", line 578, in _get_grouper
    raise KeyError(gpr)
KeyError: 'zipcode'

使用大熊猫读取CSV时出现KeyError

0 个答案: