我无法使用urllib
读取此website的html代码
def tests(url):
response = urllib.urlopen(url)
soup = BeautifulSoup(response.read())
universities=soup.findAll('a',{'class':'pin-link'})
print universities
if __name__ == '__main__':
tests("https://pinshape.com/shop?page=3&is-free=true&type=-streamable")
答案 0 :(得分:0)
您可以尝试使用urllib.request。以我正在使用的代码的一部分为例,它的工作方式如下
{{1}}
答案 1 :(得分:0)
尽管urllib
,您可以试用requests库,这对于初学者来说更加人性化。
例如,通过使用requests
,您可以获得这样的网页
>>> import requests
>>> r = requests.get("https://pinshape.com/shop?page=2")
>>> r.text
>>> u'<!DOCTYPE html>\n<html class=\'no-js\' lang=\'en\'>\n<head>\n<meta charset=\'utf-8\'> ...
提醒一下,BeautifulSoup
速度不够快,您可以查看
根据上述帖子和我自己的经验,lxml
肯定比BeautifulSoup
快。您可以查看以下链接以获取xpath教程
希望有所帮助
答案 2 :(得分:0)
您尝试访问的网址是HTTPS,请注意&#39; S&#39;,因此您需要建立安全连接。 HTTP和HTTPS请求的处理方式截然不同。