Question

我正在使用pandas来读取.csv数据文件。对于我的一个文件，我可以使用列标题进行索引。对于另一个我收到错误消息

File "/usr/lib/python2.7/dist-packages/pandas/core/internals.py", 
line 1023, in _check_have
raise KeyError('no item named %s' % com.pprint_thing(item))
KeyError: u'no item named State'

我使用的代码是：

filename = "PovertyEstimates.csv"
#filename = "nm.csv"

f = open(filename)
import pandas as pd

data = pd.read_csv(f)#, index_col=0)
print data['State']

即使我使用index_col，我也会得到相同的错误（除非它是0）。我发现当我打印在我的终端中不能正常工作的csv文件时，它不会被分成像那样的列。而是每行中的项目以空格连续打印。我认为这种不正确的分离是个问题。

我在Ubuntu Linux上使用LibreOffice Calc。对于格式不正确的文件（在LibreOffice中以完美格式显示），终端输出为：

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3194 entries, 0 to 3193
Data columns:
FIPStxt State   Area_name   Rural-urban_Continuum Code_2003       Urban_Influence_Code_2003 Rural-urban_Continuum Code_20013      Urban_Influence_Code_20013    POVALL_2011 CI90LBAll_2011    CI90UBALL_2011    PCTPOVALL_2011  CI90LBALLP_2011 CI90UBALLP_2011 POV017_2011 CI90LB017_2011  CI90UB017_2011  PCTPOV017_2011  CI90LB017P_2011 CI90UB017P_2011 POV517_2011 CI90LB517_2011  CI90UB517_2011  PCTPOV517_2011  CI90LB517P_2011 CI90UB517P_2011 MEDHHINC_2011   CI90LBINC_2011  CI90UBINC_2011  POV05_2011  CI90LB05_2011   CI90UB05_2011   PCTPOV05_2011   CI90LB05P_2011       CI90UB05P_2011    3194  non-null values
dtypes: object(1)

csv文件的前几行是：

FIPStxt State   Area_name   Rural-urban_Continuum Code_2003       
01000   AL  Alabama      
01001   AL  Autauga County  2   2
01003   AL  Baldwin County  4   5

Answer 1

空间可能是问题所在。您需要告诉pandas解析CSV时要使用的分隔符。

data = pd.read_csv(f, sep=" ")

问题是，它会将所有空格作为有效分隔符（例如Alabama County变为2列）。最好的方法是将一个文件转换为实际的逗号（分号或其他）分隔文件，或确保引用复合值（“阿拉巴马县”），然后指定quotechar：

data = pd.read_csv(f, sep=" ", quotechar='"')

熊猫不承认csv列

1 个答案: