我试图找到一个正则表达式模式并将其放在数据框列中,同时遍历另一列的值。
问题:直到第60次迭代前它都能工作,但随后仅显示NaN。我有40万个条目,其中大多数应该匹配。
那是为什么,我该如何解决?
import re
new_mail = []
for urlcore in re.finditer('https*://[www.]*(\S*).*\.(fr|com)',str(df['Site_Web'])):
yolo = urlcore.group(1)
new_mail.append(yolo)
df['urlcore'] = pd.Series(new_mail)
df['urlcore'] = df['urlcore'].str.replace('.', '', regex=True).replace('-', '', regex=True)
答案 0 :(得分:0)
由于(\S*).*
,您的正则表达式会遇到性能问题。将其更改为https?:\/\/(www\.)?(\S*)\.(fr|com)
答案 1 :(得分:-2)