Question

我正在尝试在网站url中提取字符串但是网址不一致，因为它们来自不同的数据源并且非常不整洁

示例：

在尝试使用正则表达式时，我无法正确提取它们，例如我希望输出为

我使用了以下正则表达式但未成功

new = re.findall(r'\.(.+)\.', name_Extract)

请求反馈

Answer 1

pip install tldextract

在Python解释器中：

import tldextract
tldextract.extract('www.ghi').domain

适用于所有这三个例子。我使用的是Python 2.7.12。