Question

我正在尝试从互联网上下载网页。我能够窃取HTML（使用URLlib），但我无法正确下载图像。尽管如此，已经存在一个问题。我的问题是，有什么方法可以使用python绕过防火墙访问“被阻止”的网页？

理想情况下，它会使用一些不起眼的代码或模块，但如果不可能，有人可以使用不同的方法（如代理）告诉我一个好的解决方法吗？

Answer 1

如果要从HTML页面中提取图像，则需要使用重新模块

解析它

import re

使用正则表达式仅提取 img src 标记。您也可以使用编写的解析器alredy。例如，BeautifulSoup＆gt; http://www.crummy.com/software/BeautifulSoup/

防火墙是计算机网络外围防御的被动组件，也可以作为网络两个或多个部分之间的联系点，确保在网络本身的安全性方面提供保护。所以你必须直接在网络中工作，而不是通过代码语言。