使用以下代码:
with open('newim','wb') as f:
f.write(requests.get(repr(url)))
其中网址为:
url = ''
我收到以下错误:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:\Python33\lib\site-packages\requests\api.py", line 69, in get
return request('get', url, params=params, **kwargs)
File "C:\Python33\lib\site-packages\requests\api.py", line 50, in request
response = session.request(method=method, url=url, **kwargs)
File "C:\Python33\lib\site-packages\requests\sessions.py", line 465, in request
resp = self.send(prep, **send_kwargs)
File "C:\Python33\lib\site-packages\requests\sessions.py", line 567, in send
adapter = self.get_adapter(url=request.url)
File "C:\Python33\lib\site-packages\requests\sessions.py", line 641, in get_adapter
raise InvalidSchema("No connection adapters were found for '%s'" % url)
我看过其他帖子的内容,乍一看似乎是一个类似的问题,但我没有运气只是添加&#39; https://&#39;或类似的东西...我真的想避免在webdriver + Autoit或其他东西中做这个,因为我必须为成千上万的图像做类似的练习。
答案 0 :(得分:0)
这是用base64编码的图像。引用下面的URL:“base64等于图像本身的文本(字符串)表示”。
阅读本文以获得详细说明: http://www.stoimen.com/blog/2009/04/23/when-you-should-use-base64-for-images/
要使用它们,您必须实现base64解码器。幸运的是,SO已经为您提供了如何做到的答案:
答案 1 :(得分:0)
您对嵌入式图像概念的理解似乎存在问题。实际上,您发布的url
是您选择&#39;查看图像&#39; 或&#39;复制图像位置&#39; (或类似的东西,取决于浏览器)从上下文菜单中,正式称为data URI。
指向图片的不 http url,您可以不使用它从任何服务器检索实际图片:这正是{ {1}}在错误消息中指出。
那么, 我们如何获得这些图片? 以下脚本将处理此任务:
requests
要运行它,您需要与import requests
from lxml import html
import binascii as ba
i = 0
url="<Page URL goes here>" #Ex: http://server/dir/images.html
page = requests.get(url)
struct = html.fromstring(page.text)
images = struct.xpath('//img/@src')
for img in images:
i += 1
ext = img.partition('data:image/')[2].split(';')[0]
with open('newim'+str(i)+'.'+ext,'wb') as f:
f.write(ba.a2b_base64(img.partition('base64,')[2]))
print("Done")
一起安装lxml可以找到here的库。
下面简要介绍脚本的功能:
首先它从服务器请求requests
,并在获得服务器的响应后,将其存储在响应对象(url
)中。
然后它利用 lxml 中的page
来转换&#34; textified&#34; html.fromstring()
的内容到树结构中,可以使用XPath语法通过命令处理,如下所示:page
。
结果是images = struct.xpath('//img/@src')
包含页面中每个图像的list
属性的内容。在这种情况下(嵌入图像),这些是数据URI。
然后,对于列表中的每个图像,它首先使用src
和newim
获取图像类型(将用作partition()
的扩展名)并将其存储在split()
中。然后它将base64编码数据转换为二进制(使用 binascii 模块中的ext
)并将输出写入文件。
作为一个小型演示,请在服务器中的某处保存此a2b_base64()
代码(例如 images.html )
html
并在脚本中指向它:<h1>Images</h1>
<img src="" />
<br />
<img src=""></img>
<br />
<img src=""/>
。
运行脚本时,您将获得以下3张图片:
,,,分别命名为requests.get("http://yourserver/somedir/images.html")
,newim1.png
和newim2.png
。
提醒一下,请注意此脚本(以其当前形式)仅处理嵌入图像。如果你想处理普通的链接图像,那么你必须相应地修改它(但这并不困难)。