Question

我无法使用urllib

读取此website的html代码

def tests(url):
	response = urllib.urlopen(url)
	soup = BeautifulSoup(response.read())
	universities=soup.findAll('a',{'class':'pin-link'})
	print universities

if __name__ == '__main__':
	tests("https://pinshape.com/shop?page=3&is-free=true&type=-streamable")

是否可以阅读页面源？

Answer 1

您可以尝试使用urllib.request。以我正在使用的代码的一部分为例，它的工作方式如下

{{1}}

Answer 2

尽管urllib，您可以试用requests库，这对于初学者来说更加人性化。

例如，通过使用requests，您可以获得这样的网页

>>> import requests
>>> r = requests.get("https://pinshape.com/shop?page=2")
>>> r.text
>>> u'<!DOCTYPE html>\n<html class=\'no-js\' lang=\'en\'>\n<head>\n<meta charset=\'utf-8\'> ...

提醒一下，BeautifulSoup速度不够快，您可以查看

根据上述帖子和我自己的经验，lxml肯定比BeautifulSoup快。您可以查看以下链接以获取xpath教程

W3School: XPath Tutorial

希望有所帮助

Answer 3

您尝试访问的网址是HTTPS，请注意＆＃39; S＆＃39;，因此您需要建立安全连接。 HTTP和HTTPS请求的处理方式截然不同。

python无法读取网站的HTML代码

3 个答案: