我正在尝试从互联网上下载网页。我能够窃取HTML(使用URLlib),但我无法正确下载图像。尽管如此,已经存在一个问题。我的问题是,有什么方法可以使用python绕过防火墙访问“被阻止”的网页?
理想情况下,它会使用一些不起眼的代码或模块,但如果不可能,有人可以使用不同的方法(如代理)告诉我一个好的解决方法吗?
答案 0 :(得分:1)
如果要从HTML页面中提取图像,则需要使用重新模块
解析它import re
使用正则表达式仅提取 img src 标记。您也可以使用编写的解析器alredy。例如,BeautifulSoup> http://www.crummy.com/software/BeautifulSoup/
防火墙是计算机网络外围防御的被动组件,也可以作为网络两个或多个部分之间的联系点,确保在网络本身的安全性方面提供保护。所以你必须直接在网络中工作,而不是通过代码语言。