我有一个包含一些交易数据的Excel电子表格。我尝试将其导入Pandas数据帧:
>>> import pandas as pd
>>> xlsfile = pd.ExcelFile("/data/transactions.xls")
>>> data = xlsfile.parse('data')
......而且,乍一看,它看起来还不错。然后我注意到一个列(即“运送到地区”)应该包含四个可能的值之一:
......经常有没有意义的价值观。虽然这些值在大多数情况下最终都在正确的列中,但有数千个实例并非如此:
>>> len(data['Ship To Region'].unique())
5007
来自邻近单元格的值以某种方式爬进错误的列。
>>> for value in data['Ship To Region'].unique():
... print value
...
Americas
EMEA
APAC
nan
Ship To Name
Justin Bieber
Marie Curie Industries
BKS Iyengar
[...etc...]
你能看出我做错了吗?
答案 0 :(得分:0)
这当然很奇怪。您使用的是什么版本的熊猫?
顺便说一下,你可以使用pd.read_excel()并在一行中完成。