我有一个列market_area
,我希望通过仅将字符串的一部分保留在连字符的左边来缩写。
例如,我的数据是这样的:
import pandas as pd
tmp = pd.DataFrame({'market_area': ['San Francisco-Oakland-San Jose',
None,
'Dallas-Fort Worth',
'Los Angeles-Riverside-Orange County'],
'val': [1,2,3,4]})
我想要的输出是:
['San Francisco', None, 'Dallas', 'Los Angeles']
我可以根据连字符进行拆分:
tmp['market_area'].str.split('-')
但是如何仅提取连字符左侧的部分?
答案 0 :(得分:2)
您可以使用.str[0]
tmp.market_area.str.split('-').str[0]
Out[3]:
0 San Francisco
1 None
2 Dallas
3 Los Angeles
Name: market_area, dtype: object
或者使用str.extract
方法使用正则表达式^([^-]*).*
,该方法捕获模式直到第一个-
:
tmp.market_area.str.extract('^([^-]*).*', expand=False)
Out[5]:
0 San Francisco
1 NaN
2 Dallas
3 Los Angeles
Name: market_area, dtype: object