避免使用Beautifulsoup和urllib.request下载图像

时间:2016-04-03 08:31:24

标签: web-scraping beautifulsoup urllib urlopen

我正在使用BeautifulSoup'lxml'解析器)和urllib.request.urlopen()来从网站获取文本信息。但是,当我检查我的Acitivity Monitor中的网络部分时,我看到python下载了大量数据。这表明不仅下载了文本,还下载了图像。

使用BeautifulSoup进行webscraping时,是否可以避免下载图像?

1 个答案:

答案 0 :(得分:0)

这不太可能,因为图片不在<img src="/here/goes/this/img"..的页面上。浏览器或urllib必须多次访问JS,img,CSS等静态文件。缩小尺寸的一种可能解决方案是请求压缩内容。

"Accept-Encoding":"gzip"标头添加到Request对象。如果服务器支持它,则尺寸减小将是好的。然后,您将gzip.decompress()获取字符串数据。