我有这样的python代码
#! /usr/bin/python
from url parse import urlparse
url = 'https://pastebin.com/raw/EgGZmEqY'
parsed = urlparse(url)
site = parsed.netloc
print site
我想要站点是RAW还是不只是获取没有HTTPS和HTTP或WWW的站点。例如我有这样的网站RAW。我只想获取example.com
而不包含
https://example.com
http://example.com
www.example.com
example.com
在没有https,http和www的情况下如何获取? 谢谢!
答案 0 :(得分:1)
我认为您只需要TLD(域名)而不包含子域或方案。
从this Stackoverflow答案看来,您所需要做的只是:
import tldextract
tldextract.extract('http://forums.news.cnn.com/')
ExtractResult(subdomain='forums.news', domain='cnn', suffix='com')
那么在您的情况下,我将使用此方法: #!/ usr / bin / env python3
import tldextract
url = 'https://www.pastebin.co.uk/raw/EgGZmEqY'
parsed = tldextract.extract(url)
domain = parsed.domain + '.' + parsed.suffix
print (domain)