我的数据集如下所示。我正在尝试使用正则表达式将“第二”列分为标题,名和姓。我是python和regex的新手。
到目前为止,我的代码如下所示
def spilt_it(name):
re.findall()
if x :
return(x.group())
数据集:
{
'Name': {0: ' Braund', 1: ' Heikkinen', 2: ' Allen', 3: ' Moran', 4: ' McCarthy'},
'Fullname': {0: ' Mr. Owen Harris ', 1: ' Miss. Laina ', 2: ' Mr. William Henry ', 3: ' Mr. James ', 4: ' Mr. Timothy J '},
'num': {0: 1, 1: 0, 2: 0, 3: 0, 4: 0}
}
答案 0 :(得分:1)
使用pandas.Series.str.split,您可以用空格字符Fullname
来分隔" "
列,n=-1
表示返回所有被分隔的单词。因此,使用df["Fullname"].str.split(" ", n = -1, expand = True)
的完整工作示例,
import pandas as pd
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
df = pd.DataFrame({'Name': {0: ' Braund', 1: ' Heikkinen', 2: ' Allen', 3: ' Moran', 4: ' McCarthy'}, 'Fullname': {0: ' Mr. Owen Harris ', 1: ' Miss. Laina ', 2: ' Mr. William Henry ', 3: ' Mr. James ', 4: ' Mr. Timothy J '}, 'num': {0: 1, 1: 0, 2: 0, 3: 0, 4: 0}})
new = df["Fullname"].str.split(" ", n = -1, expand = True)
# making seperate title column from new data frame
df["Title"]= new[1]
# making seperate first name column from new data frame
df["First Name"]= new[2]
# making seperate last name column from new data frame
df["Last Name"]= new[3]
print(df.head())
输出:
Name Fullname num Title First Name Last Name
0 Braund Mr. Owen Harris 1 Mr. Owen Harris
1 Heikkinen Miss. Laina 0 Miss. Laina
2 Allen Mr. William Henry 0 Mr. William Henry
3 Moran Mr. James 0 Mr. James
4 McCarthy Mr. Timothy J 0 Mr. Timothy J
答案 1 :(得分:0)
要点:使用功能str.split(' ', n=1, expand=True)
在您的示例中我没有看到任何姓氏,因此我只作一个拆分。您可以使用参数n = 1或n = 2等等任意设置数量。
首先:strip在您的姓名中添加一些多余的空格,然后在第一个空格中split保留姓名:
df = pd.DataFrame(data)
split_names = (df['Fullname']
.str.strip()
.str.split(' ', n=1, expand=True)
.rename(columns={0:'Title', 1:'First_name'})
)
然后:使用pd.concat(),将此拆分名称添加到您的数据框中:
df = pd.concat([df, split_names], axis=1)
结果:
print(df)
Name Fullname num Title First_name
0 Braund Mr. Owen Harris 1 Mr. Owen Harris
1 Heikkinen Miss. Laina 0 Miss. Laina
2 Allen Mr. William Henry 0 Mr. William Henry
3 Moran Mr. James 0 Mr. James
4 McCarthy Mr. Timothy J 0 Mr. Timothy J