我有1200万行和9列CSV文件。
我遇到一个
Keyword
错误,而不是MemoryError
,不是重复错误 问题。
我需要阅读它,每个2nd lowest rate
得到zipcode
。
我已经读过要使用CSV文件中的大型数据集,您需要分块读取它们并将代码应用于每个块。
我有这个
import pandas as pd
import csv
for df in pd.read_csv('slcsp/new_df.csv', sep='\t', iterator=True, chunksize=1000):
df.groupby('zipcode').rate.nsmallest(2).reset_index().drop('level_1',1) \
.drop_duplicates(subset=['zipcode'], keep='last')
但是出现错误:
KeyError:“邮政编码” #但有一个名为zipcode
我已经检查过,并且有一列名为zipcode
。
Traceback (most recent call last):
File "slcsp/slcsp.py", line 19, in <module>
df.loc[df.groupby('zipcode').rate.rank(method='first').eq(2),['zipcode','rate']]
File "D:\virtual_envs\web_scrapping\lib\site-packages\pandas\core\generic.py", line 7632, in groupby
observed=observed, **kwargs)
File "D:\virtual_envs\web_scrapping\lib\site-packages\pandas\core\groupby\groupby.py", line 2110, in groupby
return klass(obj, by, **kwds)
File "D:\virtual_envs\web_scrapping\lib\site-packages\pandas\core\groupby\groupby.py", line 360, in __init__
mutated=self.mutated)
File "D:\virtual_envs\web_scrapping\lib\site-packages\pandas\core\groupby\grouper.py", line 578, in _get_grouper
raise KeyError(gpr)
KeyError: 'zipcode'