输入数据集:
Var1 Var2 Var3 Var4
101 XXX yyyy 12/10/2014
101 XYZ YTRT 13/10/2014
102 TTY UUUU 9/9/2014
102 YTY IUYY 10/10/2014
预期数据集:
Var1 Var2 Var3 Var4 New_Variable
101 XXX yyyy 12/10/2014 XXX, yyyy
101 XYZ YTRT 13/10/2014 XYZ, YTRT
102 TTY UUUU 9/9/2014 TTY, UUUU
102 YTY IUYY 10/10/2014 YTY, IUYY
如何连接两个或多个字符串变量并创建一个新变量来捕获同一数据集中的连接值?
答案 0 :(得分:1)
您可以使用cat
方法。
以下是一个例子:
>>> df = pd.DataFrame({'a':['x','y','z'], 'b': ['x','y','z'], 'c': ['x','y','z']})
>>> df
a b c
0 x x x
1 y y y
2 z z z
现在,您可以在所选列之一上使用cat
方法创建新列。使用others
参数指定要与sep
参数和分隔符连接的其他列:
>>> df["new"] = df.a.str.cat(others=[df.b, df.c], sep=', ')
>>> df
a b c new
0 x x x x, x, x
1 y y y y, y, y
2 z z z z, z, z