我正在使用BeautifulSoup
('lxml'
解析器)和urllib.request.urlopen()
来从网站获取文本信息。但是,当我检查我的Acitivity Monitor中的网络部分时,我看到python下载了大量数据。这表明不仅下载了文本,还下载了图像。
使用BeautifulSoup进行webscraping时,是否可以避免下载图像?
答案 0 :(得分:0)
这不太可能,因为图片不在<img src="/here/goes/this/img"..
的页面上。浏览器或urllib
必须多次访问JS,img,CSS等静态文件。缩小尺寸的一种可能解决方案是请求压缩内容。
将"Accept-Encoding":"gzip"
标头添加到Request
对象。如果服务器支持它,则尺寸减小将是好的。然后,您将gzip.decompress()
获取字符串数据。