Question

如何抓取http://www.facebook.com/pages/create.php之类的网址，以获得如下结果：www.facebook.com？

我试过这种方式，但不起作用：

line.split('/', 2)[2]

我的问题可能是两个正斜杠//和一些URL从www字符串开始。

感谢您的帮助，Adia

Answer 1

您可能希望查看Python的urlparse模块。

>>> from urlparse import urlparse
>>> o = urlparse('http://www.facebook.com/pages/create.php')
>>> o.netloc
'www.facebook.com'

Answer 2

可能最好的选择是从正则表达式返回服务器部分，即

\/[a-z0-9\-\.]*[a-zA-Z0-9\-]+\.[a-z]{2,3}\/

可以包括www.facebook.com，facebook.com，some-domain.tv，www.some-domain.net等。

注意：头部和尾部斜杠是正则表达式的一部分，而不是正则表达式分隔符。

Answer 3

尝试：

line.split("//", 1)[-1].split("/", 1)[0]

Answer 4

我愿意：

ch[7 if ch[0:7]=='http://' else 0:].partition('/')[0]

我不确定它对你遇到的所有情况都有效

此外：

ch[(ch[0:7]=='http://')*7:].partition('/')[0]