我大约有100种不同格式的文件,需要将它们合并到主客户列表中。尽管它们基本上都包含相同的信息,但是它们都有不同的命名约定。我想做的是将诸如First Name和FirstNAME之类的元素组合到单个列中。目前,我可以将单个列移到新列表中,但是当我尝试将它们都添加时,它会返回Nan值。
df['combined'] = (df['First Name'] + df['FirstNAME'])
最好的猜测是我没有正确列出标题,或者与.fillna()有关
import pandas as pd
df1 = pd.read_excel('Sample1.xlsx')
df2 = pd.read_excel('Sample2.xlsx')
df = pd.concat([df1, df2], sort=True)
df = df.reset_index()
df['combined'] = (df['First Name'] + df['FirstNAME'])
当前结果
Email First Name FirstNAME Last Name Linkedin Phone Number combined
asdf... Sharraon NaN Han NaN 3173444264 NaN
asdf... Pete NaN Stewart NaN 2344564456 NaN
asdf... Greg NaN James NaN 3453453452 NaN
asdf... NaN James Lockely NaN 3166682264 NaN
asdf... NaN Fred Stewart NaN 2344564456 NaN
asdf... NaN Kevin Mar NaN 3453453452 NaN
所需结果
Email First Name FirstNAME Last Name Linkedin Phone Number combined
asdf... Sharraon NaN Han NaN 3173444264 Sharraon
asdf... Pete NaN Stewart NaN 2344564456 Pete
asdf... Greg NaN James NaN 3453453452 Greg
asdf... NaN James Lockely NaN 3166682264 James
asdf... NaN Fred Stewart NaN 2344564456 Fred
asdf... NaN Kevin Mar NaN 3453453452 Kevin