熊猫:使用apply to split column into 2

时间:2017-05-25 05:46:33

标签: python pandas dataframe

我有一个带有列('location')的数据框,其中包含以逗号分隔的城市和州的信息。有些值为None。

我编写了一个函数将数据拆分为城市和州,并将其清理一下:

def split_data(x):
    if x:
        s = x.split(',')
        city = s[0].lstrip().rstrip()
        state = s[1].lstrip().rstrip()
    else:
        city = None
        state = None
    return city, state

我很难搞清楚如何从这个函数创建2个单独的列。 如果我使用以下内容:

df['location_info'] = df['location'].apply(split_data)

它会在'location_info'列中创建一个元组。

在数据框架中创建2个新列的最佳方法是什么 - 一个名为“city”,另一个名为“state”?

1 个答案:

答案 0 :(得分:4)

我认为你可以使用矢量化函数str.splitstr.strip

df[['city','state']]=df['location'].str.split(',',expand=True).apply(lambda x: x.str.strip())

或者:

df[['city','state']] = df['location'].str.split(',', expand=True)
df['city'] = df['city'].str.strip()
df['state'] = df['state'].str.strip()

样品:

df = pd.DataFrame({'location':[' a,h ',' t ,u', None]})
print (df)
  location
0     a,h 
1     t ,u
2     None

df[['city','state']]=df['location'].str.split(',',expand=True).apply(lambda x: x.str.strip())
print (df)
  location  city state
0     a,h      a     h
1     t ,u     t     u
2     None  None  None

但如果需要真正使用您的功能(例如更复杂),请添加Series

def split_data(x):
    if x:
        s = x.split(',')
        city = s[0].strip()
        state = s[1].strip()
    else:
        city = None
        state = None
    return pd.Series([city, state], index=['city','state'])

df[['city','state']] = df['location'].apply(split_data)
print (df)
  location  city state
0     a,h      a     h
1     t ,u     t     u
2     None  None  None