使用Pandas读取带有多个标题的excel表

时间:2016-11-11 18:33:34

标签: python excel pandas dataframe

我有一个带有多个标题的Excel工作表:

_________________________________________________________________________
____|_____|        Header1    |        Header2     |        Header3      |
ColX|ColY |ColA|ColB|ColC|ColD||ColD|ColE|ColF|ColG||ColH|ColI|ColJ|ColDK|
1   | ds  | 5  | 6  |9   |10  | .......................................
2   | dh  |  ..........................................................
3   | ge  |  ..........................................................
4   | ew  |  ..........................................................
5   | er  |  ..........................................................

现在,您可以看到前两列没有标题,它们是空白的,但其他列的标题如Header1,Header2和Header3。所以我想阅读这张表并将其与其他具有类似结构的表合并。

我想在第一栏'ColX'上合并它。现在我这样做:

import pandas as pd

totalMergedSheet = pd.DataFrame([1,2,3,4,5], columns=['ColX'])
file = pd.ExcelFile('ExcelFile.xlsx')
for i in range (1, len(file.sheet_names)):
    df1 = file.parse(file.sheet_names[i-1])
    df2 = file.parse(file.sheet_names[i])
    newMergedSheet = pd.merge(df1, df2, on='ColX')
    totalMergedSheet = pd.merge(totalMergedSheet, newMergedSheet, on='ColX')

但我不知道它的读取列是否正确,我认为不会以我想要的方式返回结果。所以,我希望结果框架应该像:

________________________________________________________________________________________________________
____|_____|        Header1    |        Header2     |        Header3      |        Header4     |        Header5      |
ColX|ColY |ColA|ColB|ColC|ColD||ColD|ColE|ColF|ColG||ColH|ColI|ColJ|ColK| ColL|ColM|ColN|ColO||ColP|ColQ|ColR|ColS|
1   | ds  | 5  | 6  |9   |10  | ..................................................................................
2   | dh  |  ...................................................................................
3   | ge  |  ....................................................................................
4   | ew  |  ...................................................................................
5   | er  |  ......................................................................................

请提出任何建议。感谢。

1 个答案:

答案 0 :(得分:15)

Pandas已经有一个函数可以读取整个Excel电子表格,因此您无需手动解析/合并每个工作表。看看pandas.read_excel()。它不仅可以让您在单行中读取Excel文件,还可以提供帮助解决您遇到的问题的选项。

由于您有子列,因此您需要的是MultiIndexing。默认情况下,pandas将在顶行中读取唯一标题行。您可以将header参数传递给pandas.read_excel(),该参数指示要将多少行用作标题。在您的特定情况下,您需要header=[0, 1],表示前两行。您可能还有多个工作表,因此您也可以传递sheetname=None(这会告诉它遍历所有工作表)。命令是:

df_dict = pandas.read_excel('ExcelFile.xlsx', header=[0, 1], sheetname=None)

这将返回一个字典,其中键是工作表名称,值是每个工作表的DataFrame。如果要将其全部折叠到一个DataFrame中,只需使用pandas.concat:

即可
df = pandas.concat(df_dict.values(), axis=0)