Question

我有一个包含一些交易数据的Excel电子表格。我尝试将其导入Pandas数据帧：

>>> import pandas as pd
>>> xlsfile = pd.ExcelFile("/data/transactions.xls")
>>> data = xlsfile.parse('data')

......而且，乍一看，它看起来还不错。然后我注意到一个列（即“运送到地区”）应该包含四个可能的值之一：

enter image description here

......经常有没有意义的价值观。虽然这些值在大多数情况下最终都在正确的列中，但有数千个实例并非如此：

>>> len(data['Ship To Region'].unique())
5007

来自邻近单元格的值以某种方式爬进错误的列。

>>> for value in data['Ship To Region'].unique():
...     print value
...

Americas
EMEA
APAC
nan
Ship To Name
Justin Bieber
Marie Curie Industries
BKS Iyengar
[...etc...]

你能看出我做错了吗？

Answer 1

这当然很奇怪。您使用的是什么版本的熊猫？

顺便说一下，你可以使用pd.read_excel（）并在一行中完成。

来自pandas.ExcelFile导入的Pandas数据框中的列未对齐

1 个答案: