我正在尝试在网站url中提取字符串但是网址不一致,因为它们来自不同的数据源并且非常不整洁
示例:
www.abcd.com
www.ghi
khll.in
在尝试使用正则表达式时,我无法正确提取它们,例如我希望输出为
abcd
ghi
khll
我使用了以下正则表达式但未成功
new = re.findall(r'\.(.+)\.', name_Extract)
请求反馈
答案 0 :(得分:2)
pip install tldextract
在Python解释器中:
import tldextract
tldextract.extract('www.ghi').domain
适用于所有这三个例子。我使用的是Python 2.7.12。