如何在数据框列中某些字符之后提取字符串的整个部分?

时间:2019-01-08 01:36:13

标签: python python-3.x string pandas

我正在使用以下代码提取熊猫数据框列名称的最后一个数字。

names = df.columns.values
new_df = pd.DataFrame()
for name in names:    
    if ('.value.' in name) and df[name][0]:
        last_number = int(name[-1])
        print(last_number)
        key, value = my_dict[last_number]
        try:
            new_df[value][0] = list(new_df[value][0]) + [key]
        except:
            new_df[value] = [key]

name是一个看起来像这样的字符串:

'data.answers.1234567890.value.0987654321'

我想像在.value.语句中一样,在IF之后取整个数字。上面的IF语句中将如何处理?

1 个答案:

答案 0 :(得分:3)

使用str.split,并用-1提取最后一个切片(也可以很好地处理错误的情况):

df = pd.DataFrame(columns=[
    'data.answers.1234567890.value.0987654321', 'blahblah.value.12345', 'foo'])    

df.columns = df.columns.str.split('value.').str[-1]
df.columns
# Index(['0987654321', '12345', 'foo'], dtype='object')

另一种替代方法是在listcomp中拆分:

df.columns = [x.split('value.')[-1] for x in df.columns]
df.columns
# Index(['0987654321', '12345', 'foo'], dtype='object')