附加带循环的数据帧

时间:2016-03-16 08:40:28

标签: python excel pandas

早上好,

我有3个excels,我从excel导入。我正在尝试创建一个DataFrame,它从每个导入中获取名称('Ticker')列,添加excel的标题('Secto')并将其附加到彼此以创建新的DataFrame。然后,这个新的DataFrame将导出到excel。

AA  = ['Aero&Def','REITs', 'Auto&Parts']

File = 'FTSEASX_'+AA[0]+'_Price.xlsx'
xlsx = pd.ExcelFile('C:/Users/Ben/'+File)
df = pd.read_excel(xlsx, 'Price_Data')
df = df[df.Identifier.notnull()]
df.fillna(0)
a = []
b = []
for i in df['Ticker']:
    a.append(i)
    b.append(AA[0])
raw_data = {'Ticker': a, 'Sector': b}
df2 = pd.DataFrame(raw_data, columns = ['Ticker', 'Sector'])

del AA[0]

for j in AA:
    File = 'FTSEASX_'+j+'_Price.xlsx'
    xlsx = pd.ExcelFile('C:/Users/Ben/'+File)
    df3 = pd.read_excel(xlsx, 'Price_Data')
    df3 = df3[df3.Identifier.notnull()]
    df3.fillna(0)
    a = []
    b = []
    for i in df3['Ticker']:
        a.append(i)
        b.append(j)
    raw_data = {'Ticker': a, 'Sector': b}
    df4 = pd.DataFrame(raw_data, columns = ['Ticker', 'Sector'])
    df5 = df2.append(df4)

我目前正在接受以下内容,但显然第二次导入,标题为“REITs”未被捕获。

Ticker  Sector
0   AVON-GB Aero&Def
1   BA-GB   Aero&Def
2   COB-GB  Aero&Def
3   MGGT-GB Aero&Def
4   SNR-GB  Aero&Def
5   ULE-GB  Aero&Def
6   QQ-GB   Aero&Def
7   RR-GB   Aero&Def
8   CHG-GB  Aero&Def
0   GKN-GB  Auto&Parts

我将如何实现这一目标?还是有更好的更多pythonic方式实现这一目标?

1 个答案:

答案 0 :(得分:1)

我会这样做:

import pandas as pd

AA  = ['Aero&Def','REITs', 'Auto&Parts']

# assuming that ['Ticker','Sector','Identifier'] columns are in 'B,D,E' Excel columns
xl_cols='B,D,E'

dfs = [ pd.read_excel('FTSEASX_{0}_Price.xlsx'.format(f),
                      'Price_Data',
                      parse_cols=xl_cols,
                     ).query('Identifier == Identifier')
        for f in AA]

df = pd.concat(dfs, ignore_index=True)

print(df[['Ticker', 'Sector']])

说明:

.query('Identifier == Identifier') - 仅为您提供Identifier非NULL的行(使用value == NaN始终为False的事实)

PS使用Pandas时,您不想循环使用数据框...