来自pandas.ExcelFile导入的Pandas数据框中的列未对齐

时间:2014-11-13 00:34:51

标签: python excel pandas

我有一个包含一些交易数据的Excel电子表格。我尝试将其导入Pandas数据帧:

>>> import pandas as pd
>>> xlsfile = pd.ExcelFile("/data/transactions.xls")
>>> data = xlsfile.parse('data')

......而且,乍一看,它看起来还不错。然后我注意到一个列(即“运送到地区”)应该包含四个可能的值之一:

enter image description here

......经常有没有意义的价值观。虽然这些值在大多数情况下最终都在正确的列中,但有数千个实例并非如此:

>>> len(data['Ship To Region'].unique())
5007

来自邻近单元格的值以某种方式爬进错误的列。

>>> for value in data['Ship To Region'].unique():
...     print value
...

Americas
EMEA
APAC
nan
Ship To Name
Justin Bieber
Marie Curie Industries
BKS Iyengar
[...etc...]

你能看出我做错了吗?

1 个答案:

答案 0 :(得分:0)

这当然很奇怪。您使用的是什么版本的熊猫?

顺便说一下,你可以使用pd.read_excel()并在一行中完成。