正则表达式狂野

时间:2019-01-14 21:13:50

标签: python pandas jupyter-notebook

我正在使用Kaggle Titanic挑战数据集,使用重新导入从名称中提取标题。我大约有80%-90%的时间获得冠军头衔。它会在10%到20%的时间内返回不在名称中的标题。

我尝试将模式从'(\ S)'更改。到“([[a-zA-Z])”。

import re
combinedSet['Title'] = ''
for index, t in combinedSet.iterrows():
    # title_string = re.search(' (\S+)\.', t.Name).group(1)
    title_string = re.search(' ([A-Za-z]+)\.', t.Name).group(1)
    combinedSet.loc[index, 'Title'] = title_string
    title_string = ""

如果它不匹配,我期望返回空值,但是有时它会从Pandas的“名称”列中返回正确的标题。小姐跳到先生或太太的事实令人困惑。遵循

模式的数据框(如果非常干净)

数据集中的一个样本名称是拉多里奥先生,Todoroff

使用我的正则表达式尝试正则表达式模式可以正常工作。

我想知道这是否是熊猫的记忆问题。

0 个答案:

没有答案