应用错误收集

避免使用Beautifulsoup和urllib.request下载图像

时间：2016-04-03 08:31:24

标签： web-scraping beautifulsoup urllib urlopen

我正在使用BeautifulSoup（'lxml'解析器）和urllib.request.urlopen()来从网站获取文本信息。但是，当我检查我的Acitivity Monitor中的网络部分时，我看到python下载了大量数据。这表明不仅下载了文本，还下载了图像。

使用BeautifulSoup进行webscraping时，是否可以避免下载图像？

1 个答案:

答案 0 :(得分：0)

这不太可能，因为图片不在<img src="/here/goes/this/img"..的页面上。浏览器或urllib必须多次访问JS，img，CSS等静态文件。缩小尺寸的一种可能解决方案是请求压缩内容。

将"Accept-Encoding":"gzip"标头添加到Request对象。如果服务器支持它，则尺寸减小将是好的。然后，您将gzip.decompress()获取字符串数据。