带有可选字符的Python Regex

时间:2018-05-23 07:32:43

标签: python regex

我正在尝试在网站url中提取字符串但是网址不一致,因为它们来自不同的数据源并且非常不整洁

示例:

  • www.abcd.com
  • www.ghi
  • khll.in

在尝试使用正则表达式时,我无法正确提取它们,例如我希望输出为

  • abcd
  • ghi
  • khll

我使用了以下正则表达式但未成功

new = re.findall(r'\.(.+)\.', name_Extract)

请求反馈

1 个答案:

答案 0 :(得分:2)

pip install tldextract

在Python解释器中:

import tldextract
tldextract.extract('www.ghi').domain

适用于所有这三个例子。我使用的是Python 2.7.12。