使用src和BeautifulSoup

时间:2016-04-05 22:32:42

标签: html image web-scraping beautifulsoup src

我正在关注此过去的问题(Extracting image src based on attribute with BeautifulSoup),尝试从Google图片页面中提取所有图片。我得到了一个“urllib2.HTTPError:HTTP Error 403:Forbidden”错误但是能够通过它使用它:

req = urllib2.Request(url, headers={'User-Agent' : "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/534.30 (KHTML, like Gecko) Ubuntu/11.04 Chromium/12.0.742.112 Chrome/12.0.742.112 Safari/534.30"})

然而,我得到一个新的错误,似乎告诉我src属性不存在:

Traceback (most recent call last):
  File "Desktop/webscrapev2.py", line 13, in <module>
print(tag['src'])
  File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/bs4/element.py", line 958, in __getitem__
return self.attrs[key]
KeyError: 'src'

我能够通过专门检查'src'属性来解决这个错误,但是我提取的大多数图像都没有src属性。似乎谷歌正在做一些事情来模糊我提取甚至一些图像的能力(我知道请求是有限的,但我认为它至少是10)。

例如,打印出变量标签(见下面的代码)给出了这个:

 <img alt="Image result for baseball pitcher" class="rg_i" data-src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRZK59XKmZhYbaC8neSzY2KtS-aePhXYYPT2JjIGnW1N25codtr2A" data-sz="f" jsaction="load:str.tbn" name="jxlMHbZd-duNgM:" onload="google.aft&amp;&amp;google.aft(this)"/>

但打印出变量v会给出“无”。我不知道为什么会这样,也不知道如何从它的返回中得到实际的图像。有谁知道如何获得实际图像?我特别担心,因为data-src URL以加密开头...我应该查询data-src来获取图像而不是src吗?任何帮助或建议都将受到超级赞赏!

这是我的完整代码(在Python中):

 from bs4 import BeautifulSoup
 import urllib2

 url = "https://www.google.com/search? q=baseball+pitcher&espv=2&biw=980&bih=627&source=lnms&tbm=isch&sa=X&ved=0ahUKEwj5h8-9lfjLAhUE7mMKHdgKD0YQ_AUIBigB"
#'http://www.imdb.com/title/tt%s/' % (id,)

req = urllib2.Request(url, headers={'User-Agent' : "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/534.30 (KHTML, like Gecko) Ubuntu/11.04 Chromium/12.0.742.112 Chrome/12.0.742.112 Safari/534.30"})

soup = BeautifulSoup(urllib2.urlopen(req).read(), "lxml")
print "before FOR"
for tag in soup.findAll('img'): 
print "inside FOR"
v = tag.get('src', tag.get('dfr-src'))  # get's "src", else "dfr_src", if both are missing - None
print v
print tag
if v is None:
    continue
    print("v is NONE")
print(tag['src'])

2 个答案:

答案 0 :(得分:3)

哦,伙计。你选错了网站来刮掉。 :)

Google的防御

首先,谷歌(显然)是谷歌。它非常了解网络抓取工具和网络抓取工具 - 它的整个业务都建立在它们之上。

所以它知道普通人所做的所有技巧,更重要的是有一个重要的任务,以确保除了最终用户之外没有其他人能够获得他们的图像。

没有传递User-Agent标题?现在谷歌知道你是一个没有假装成浏览器的刮刀机器人,并禁止你访问其内容。这就是您第一次遇到403: Forbidden错误的原因 - 服务器意识到您是机器人并且阻止您访问材料。它是阻止自动机器人的最简单技术。

Google通过Javascript构建页面

没有Javascript解析功能(Python requestsurllib及其同类产品?现在,您无法查看一半图片,因为Google图片搜索结果的工作方式(如果您在加载Google图片时检查Chrome控制台中的Network标签页)是针对各种图片的一些捆绑请求内容提供商然后通过内联混淆的Javascript代码系统地将src属性添加到占位符img标记。

在最开始的时候,所有图片基本上都是空白的,只有一个自定义data-src属性来协调活动。一旦浏览器开始解析Javascript,就会向图像源提供者发出请求(因为Google可能会使用自己的CDN,这些图像会快速传输到您的计算机非常),然后页面Javascript会分类收到的数据的艰巨任务,确定应该去哪个img占位符,然后然后适当地更新src。这些都是时间密集型操作,我甚至不敢假装知道Google如何让它们如此快速地发生(尽管注意到在Chrome 48上的Dev Tools中搞乱网络限制操作会导致Google图像挂起,因为一些奇怪的原因,所以可能会有一些主要的网络级代码 - 在那里进行。)

这些图片来源提供商似乎以https://encrypted...开头,这似乎不值得担心 - 这可能只是意味着Google在发送数据时对数据应用自定义加密方案HTTPS之上的网络,然后由浏览器解码。 Google实施端到端加密而不仅仅是HTTPS - 我相信堆栈的每一层都只能使用加密数据,加密和解密只能在最终和入口点进行 - 我看到相同的情况并不会感到惊讶技术背后,例如Google帐户。

(注意:以上所有内容都来自于Chrome开发工具中的一点点,并花费时间与去混淆器。我与谷歌没有关系,我的理解很可能是不完整甚至是错误的。)< / p>

如果没有捆绑的Javascript解释器,可以说Google图片实际上是一个空白墙。

Google的最终肮脏伎俩

但是现在说你使用一个能够解析和执行Javascript来更新页面HTML的刮刀 - 就像headless browser(这里是list这样的浏览器)。您是否仍然可以通过访问src来获取所有图片?

不完全是。 Google图片在其结果页中嵌入图片。

换句话说,它不链接到其他页面,它以文本格式复制图像,并用base64编码写下图像。这大大减少了所需的连接数,并缩短了页面加载时间。

如果您导航到Google图片,右键单击任何图片,然后点击Inspect element,您就可以自行查看。这是Google图片上图片的典型HTML标记:

<img data-sz="f" name="m4qsOrXytYY2xM:" class="rg_i" alt="Image result for google images" jsaction="load:str.tbn" onload="google.aft&amp;&amp;google.aft(this)" src="" style="width: 167px; height: 167px; margin-left: -7px; margin-right: -6px; margin-top: 0px;">

请注意src中隐藏的大量文字墙。这完全是图像本身,用基础64编写。当我们在屏幕上看到图像时,我们实际上正在查看由合适的图形引擎解析和渲染的这个文本的结果。 Modern browsers support decoding and rendering of base64-encoded URIs,所以您可以将相关文字复制粘贴到地址栏中,点击Enter并立即查看图片,这并不奇怪。

要恢复图像,您可以使用Python中的data:image/jpeg;base64,模块解码此文本墙(在适当地解析它以删除base64之后):

import base64
base64_string = ... # that monster you saw above
decoded_string = base64.b64decode(your_string)

您还必须确保从src属性的开头适当地解析图像类型,将decoded_string写入文件,最后使用您从{{{ 1}}属性。

TL;博士

不要将Google图片作为您的第一个主要抓版项目。它的

  • 硬。维基百科很多更容易获得。

  • 违反了他们的Terms of Service(虽然没有什么可以解决的问题并注意到我不是律师而且这并不构成法律建议)他们明确表示

      

    请勿滥用我们的服务。例如,不要干扰我们的服务或尝试使用除接口和我们提供的说明之外的方法来访问它们。

  • 真的无法预测如何改进。如果谷歌在尽可能地欺骗人类浏览器之后使用其他身份验证机制(例如,自定义HTTP标头),我就不会感到惊讶,除了匿名的反叛谷歌之外没有其他人急于将他/她的主人减少到瓦砾(不太可能)的员工可以帮助你。

  • 明显更容易使用Google提供的Custom Search API,这样您就可以通过编程方式 Google询问一组图片,而无需刮擦。这个API的速率限制为每天大约一百个请求,这对于业余爱好项目来说已经足够了。 Here are some instructions on how to use it for images。通常,在考虑抓取之前使用API​​

答案 1 :(得分:0)

解决此问题的最佳方法是使用无头浏览器(例如Chrome Webdriver)和用户仿真库(例如Selenium Py)。光靠美丽的汤是不够的。