数据框Python中的正则表达式

时间:2020-01-21 23:55:49

标签: python regex dataframe

我正在尝试从数据框中提取名称。

import re
df['target_name'] = df['target_name'].astype(str) #converting it into a string. 

这是输出。我们只想摆脱不必要的字符并获取名称。 这就是我所做的:

df['target_name'] = df['target_name'].str.extract('([a-zA-Z ]+)', expand=False).str.strip()
df['target_name3'] = df['target_name'].str.replace(r'\([^)]*\)', '').str.strip()

我尝试使用这两种方法,但是两者都给了我相同的输出,即Nan

{{1}}

1 个答案:

答案 0 :(得分:0)

这似乎对我有用。

import pandas as pd
import re
target_name = ["Minnie", "Albert [unclear]Gles[/unclear]", 
               "Eliza [unclear]Gles[/unclear]", 
               "[unclear]P.[/unclear] Slaltery",  "? Stewart"]
df = pd.DataFrame(target_name, columns = ['target_name'])
df['target_name'] = df['target_name'].astype('str').str.replace(r'\/|\?','').str.replace('\[[a-z]+\]','').str.strip()