我正在使用Kaggle Titanic挑战数据集,使用重新导入从名称中提取标题。我大约有80%-90%的时间获得冠军头衔。它会在10%到20%的时间内返回不在名称中的标题。
我尝试将模式从'(\ S)'更改。到“([[a-zA-Z])”。
import re
combinedSet['Title'] = ''
for index, t in combinedSet.iterrows():
# title_string = re.search(' (\S+)\.', t.Name).group(1)
title_string = re.search(' ([A-Za-z]+)\.', t.Name).group(1)
combinedSet.loc[index, 'Title'] = title_string
title_string = ""
如果它不匹配,我期望返回空值,但是有时它会从Pandas的“名称”列中返回正确的标题。小姐跳到先生或太太的事实令人困惑。遵循
模式的数据框(如果非常干净)数据集中的一个样本名称是拉多里奥先生,Todoroff
使用我的正则表达式尝试正则表达式模式可以正常工作。
我想知道这是否是熊猫的记忆问题。