Question

我有这样的python代码

#! /usr/bin/python
from url parse import urlparse
url = 'https://pastebin.com/raw/EgGZmEqY'
parsed = urlparse(url)
site = parsed.netloc
print site

我想要站点是RAW还是不只是获取没有HTTPS和HTTP或WWW的站点。例如我有这样的网站RAW。我只想获取example.com而不包含

的URL

https://example.com
http://example.com
www.example.com
example.com

在没有https，http和www的情况下如何获取？谢谢！

Answer 1

我认为您只需要TLD（域名）而不包含子域或方案。

从this Stackoverflow答案看来，您所需要做的只是：

import tldextract
tldextract.extract('http://forums.news.cnn.com/')
ExtractResult(subdomain='forums.news', domain='cnn', suffix='com')

那么在您的情况下，我将使用此方法：＃！/ usr / bin / env python3

import tldextract

url = 'https://www.pastebin.co.uk/raw/EgGZmEqY'

parsed = tldextract.extract(url)
domain = parsed.domain + '.' + parsed.suffix



print (domain)

来自网站/未使用Https和Http的原始网站的Python Regex URL

1 个答案: