我需要帮助。如何从字符串中获取域名?
例如:“ Hi im Natsume,查看我的网站http://www.mysite.com/ ”
我如何才能获得 mysite.com ?
输出示例:
http://www.mysite.com/(如果输入http)
www.mysite.com(如果未输入http)
mysite.com(如果未输入http和www)
答案 0 :(得分:1)
嗯......您需要某种方式来定义您认为拥有“域名”的内容。一种方法可能是查找URL匹配的正则表达式,并将其应用于字符串。如果成功,您至少知道该字符串包含一个URL,并且可以继续解释该URL以查找主机名,然后您可以从中提取该域(可能)。
答案 1 :(得分:1)
myString = "Hi im Natsume, check out my site http://www.mysite.com/"
>>> a = re.search("(?P<url>https?://[^\s]+)", myString) or re.search("(?P<url>www[^\s]+)", myString)
>>> a.group("url")
'http://www.mysite.com/'
>>> myString = "Hi im Natsume, check out my site www.mysite.com/"
>>> a = re.search("(?P<url>https?://[^\s]+)", myString) or re.search("(?P<url>www[^\s]+)", myString)
>>> a.group("url")
'www.mysite.com/'
答案 2 :(得分:1)
如果所有网站都具有相同的格式,您可以使用这样的正则表达式(在这种特定情况下有效):
re.findall('http://www\.(\w+)\.com', url)
但是,您需要一个更复杂的正则表达式来解析任何网址并提取域名。
答案 3 :(得分:1)
如果你想使用正则表达式,可以采用一种方式 -
>>> s = "Hi im Natsume, check out my site http://www.mysite.com/"
>>> re.findall(r'http\:\/\/www\.([a-zA-Z0-9\.-_]*)\/', s)
['mysite.com']
..考虑到url以'/'
结尾答案 4 :(得分:1)
s= "Hi im Natsume, check out my site http://www.mysite.com/"
start=s.find("http://") if s.find("http://")!=-1 else s.find("https://")+1
t = s[start+11:s.find(" ",start+11)]
print(t)
<强>输出:强>
mysite.com
答案 5 :(得分:0)
最好的方法是使用正则表达式提取URL。然后使用tldextract
从URL获取有效的域名。
import re
import tldextract
text = "Hi im Natsume, check out my site http://www.example.com/"
urls = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', text)
found_url = urls[0]
info = tldextract.extract(found_url)
domain_name = info.domain
suffix_name = info.suffix
final_domain_name = domain_name+"."+suffix_name
print(final_domain_name)