python无法读取网站的HTML代码

时间:2015-08-16 23:55:04

标签: python urllib

我无法使用urllib

读取此website的html代码

def tests(url):
	response = urllib.urlopen(url)
	soup = BeautifulSoup(response.read())
	universities=soup.findAll('a',{'class':'pin-link'})
	print universities

if __name__ == '__main__':
	tests("https://pinshape.com/shop?page=3&is-free=true&type=-streamable")
是否可以阅读页面源?

3 个答案:

答案 0 :(得分:0)

您可以尝试使用urllib.request。以我正在使用的代码的一部分为例,它的工作方式如下

{{1}}

答案 1 :(得分:0)

尽管urllib,您可以试用requests库,这对于初学者来说更加人性化。

例如,通过使用requests,您可以获得这样的网页

>>> import requests
>>> r = requests.get("https://pinshape.com/shop?page=2")
>>> r.text
>>> u'<!DOCTYPE html>\n<html class=\'no-js\' lang=\'en\'>\n<head>\n<meta charset=\'utf-8\'> ...

提醒一下,BeautifulSoup速度不够快,您可以查看

根据上述帖子和我自己的经验,lxml肯定比BeautifulSoup快。您可以查看以下链接以获取xpath教程

希望有所帮助

答案 2 :(得分:0)

您尝试访问的网址是HTTPS,请注意&#39; S&#39;,因此您需要建立安全连接。 HTTP和HTTPS请求的处理方式截然不同。