Question

我正在使用以下代码提取熊猫数据框列名称的最后一个数字。

names = df.columns.values
new_df = pd.DataFrame()
for name in names:    
    if ('.value.' in name) and df[name][0]:
        last_number = int(name[-1])
        print(last_number)
        key, value = my_dict[last_number]
        try:
            new_df[value][0] = list(new_df[value][0]) + [key]
        except:
            new_df[value] = [key]

name是一个看起来像这样的字符串：

'data.answers.1234567890.value.0987654321'

我想像在.value.语句中一样，在IF之后取整个数字。上面的IF语句中将如何处理？

Answer 1

使用str.split，并用-1提取最后一个切片（也可以很好地处理错误的情况）：

df = pd.DataFrame(columns=[
    'data.answers.1234567890.value.0987654321', 'blahblah.value.12345', 'foo'])

df.columns = df.columns.str.split('value.').str[-1]
df.columns
# Index(['0987654321', '12345', 'foo'], dtype='object')

另一种替代方法是在listcomp中拆分：

df.columns = [x.split('value.')[-1] for x in df.columns]
df.columns
# Index(['0987654321', '12345', 'foo'], dtype='object')

如何在数据框列中某些字符之后提取字符串的整个部分？

1 个答案: