来自网站/未使用Https和Http的原始网站的Python Regex URL

时间:2018-09-15 10:04:38

标签: python

我有这样的python代码

#! /usr/bin/python
from url parse import urlparse
url = 'https://pastebin.com/raw/EgGZmEqY'
parsed = urlparse(url)
site = parsed.netloc
print site

我想要站点是RAW还是不只是获取没有HTTPS和HTTP或WWW的站点。例如我有这样的网站RAW。我只想获取example.com而不包含

的URL
https://example.com
http://example.com
www.example.com
example.com

在没有https,http和www的情况下如何获取? 谢谢!

1 个答案:

答案 0 :(得分:1)

我认为您只需要TLD(域名)而不包含子域或方案。

this Stackoverflow答案看来,您所需要做的只是:

import tldextract
tldextract.extract('http://forums.news.cnn.com/')
ExtractResult(subdomain='forums.news', domain='cnn', suffix='com') 

那么在您的情况下,我将使用此方法:     #!/ usr / bin / env python3

import tldextract

url = 'https://www.pastebin.co.uk/raw/EgGZmEqY'

parsed = tldextract.extract(url)
domain = parsed.domain + '.' + parsed.suffix



print (domain)