我有一个Pandas数据框,其中有很多列,下面是其中的一个子集:
df.info()
SQLDATE datetime64[ns]
SOURCEURL object
df['SQLDATE', 'SOURCEURL'].sample()
SQLDATE SOURCEURL
2017-01-08 http://www.huffingtonpost.co.uk/a/abc
2018-09-25 http://www.taiwannews.com.tw/a/news/123
2016-03-19 https://www.theguardian.com/a/2016/a/1/ab-bc
2015-12-12 https://nz.news.yahoo.com/world/a/3/a/
2017-04-07 https://www.thelocal.fr/2122/jkl
2019-02-21 http://today.az/news/a/123.html
2018-05-13 The BBC World News Report
我正在寻找一个可以提取域名的列,以便获得一个新的列,如下所示:
df.sample()
SQLDATE SOURCEURL DOMAINNAME
2017-01-08 http://www.huffingtonpost.co.uk/a/abc www.huffingtonpost.co.uk
2018-09-25 http://www.taiwannews.com.tw/a/news/123 www.taiwannews.com.tw
2016-03-19 https://www.theguardian.com/a... www.theguardian.com
2015-12-12 https://nz.news.yahoo.com/world/a/3/a/ nz.news.yahoo.com
2017-04-07 https://www.thelocal.fr/2122/jkl www.thelocal.fr
2019-02-21 http://today.az/news/a/123.html today.az
2018-05-13 The BBC World News Report The BBC World News Report
数据帧确实看起来很杂乱,其中几个SOURCEURL
字段仅包含文本,没有URL。我只想将这些值复制到DOMAINNAME
列中。我对正则表达式不太熟悉,但这可能适用于这种情况。
感谢您的审核!
答案 0 :(得分:3)
使用urlparse
:
from urllib.parse import urlparse
cell = # get cell from pandas df
domain = urlparse(cell).netloc
答案 1 :(得分:2)
此表达式
https?:\/\/(?:www\.)?([^\/]+)
具有简单的左边界
https?:\/\/(?:www\.)?
和这个捕获组
([^\/]+)
可能会返回我们想要的域名。
答案 2 :(得分:1)
我们可以在正则表达式中使用?<=
后面的正向查找和?=
前面的正向查找,以获取http://
或https://
和第一个/
之间的所有内容:>
m = df['SOURCEURL'].str.extract('(?<=http://)(.*?)(?=/)|(?<=https://)(.*?)(?=/)')
m = m[0].fillna(m[1]).fillna(df['SOURCEURL'])
df['DOMAINNAME'] = m
SQLDATE SOURCEURL DOMAINNAME
0 2017-01-08 http://www.huffingtonpost.co.uk/a/abc www.huffingtonpost.co.uk
1 2018-09-25 http://www.taiwannews.com.tw/a/news/123 www.taiwannews.com.tw
2 2016-03-19 https://www.theguardian.com/a/2016/a/1/ab-bc www.theguardian.com
3 2015-12-12 https://nz.news.yahoo.com/world/a/3/a/ nz.news.yahoo.com
4 2017-04-07 https://www.thelocal.fr/2122/jkl www.thelocal.fr
5 2019-02-21 http://today.az/news/a/123.html today.az
6 2018-05-13 The BBC World News Report The BBC World News Report