我想阅读Python Pandas一个Excel文件,如下所示:
https://www.dropbox.com/s/1usfr3fxfy2qlpp/header_with_merged_cells.xlsx?dl=0
我们可以看到这个Excel文件有一个包含合并单元格的标题
我做了
import pandas as pd
df = pd.read_excel("header_with_merged_cells.xlsx", skiprows=3)
print(df)
print(df.dtypes)
print(df.columns)
它返回一个DataFrame,如:
ColA ColB ColC Unnamed: 3 Unnamed: 4 ColD
0 NaT NaN 1 2.0 3 NaN
1 2010-01-01 A A 2.1 2010-02-01 00:00:00 E
2 2010-01-02 B C 2.2 2010-02-02 00:00:00 F
dtypes
喜欢:
ColA datetime64[ns]
ColB object
ColC object
Unnamed: 3 float64
Unnamed: 4 object
ColD object
columns
喜欢:
Index(['ColA', 'ColB', 'ColC', 'Unnamed: 3', 'Unnamed: 4', 'ColD'], dtype='object')
有没有办法修改列以获取ColA, ColB, ColC.1, ColC.2, ColC.3, ColD
或MultiIndex列?
一个问题是D5单元格被视为float
(而不是int
或str
)
另一个问题是E列应被视为datetime64[ns]
header
参数可以帮助:
df = pd.read_excel("header_with_merged_cells.xlsx", skiprows=3, header=[0,1])
但是我们得到了一个像DataFrame:
ColA ColB ColC ColD
Unnamed: 0_level_1 1 2 3 Unnamed: 4_level_1
2010-01-01 A A 2.1 2010-02-01 E
2010-01-02 B C 2.2 2010-02-02 F
dtypes
喜欢:
ColA
ColB Unnamed: 0_level_1 object
ColC 1 object
2 float64
3 datetime64[ns]
ColD Unnamed: 4_level_1 object
dtype: object
columns
喜欢:
MultiIndex(levels=[['ColB', 'ColC', 'ColD'], [1, 2, 3, 'Unnamed: 0_level_1', 'Unnamed: 4_level_1']],
labels=[[0, 1, 1, 1, 2], [3, 0, 1, 2, 4]],
names=['ColA', None])
看到Unnamed: 0_level_1
,Unnamed: 4_level_1
等列很奇怪。
有没有办法解决它?
答案 0 :(得分:2)
这并不容易。
首先添加参数header
以创建MultiIndex
,然后将Unnamed
列名称重命名为空字符串。
df = pd.read_excel("header_with_merged_cells.xlsx", skiprows=3, header=[0,1])
df = df.reset_index()
df = df.rename(columns=lambda x: x if not 'Unnamed' in str(x) else '')
df = df.rename(columns={'index':'ColA'})
df.columns.names = (None, None)
print(df)
ColA ColB ColC ColD
1 2 3
0 2010-01-01 A A 2.1 2010-02-01 E
1 2010-01-02 B C 2.2 2010-02-02 F