使用Selenium Webdriver(Python)从网站中提取图像

时间:2013-09-02 08:17:27

标签: python selenium

我需要抓取几千个子网并提取信息。

现在,遗憾的是,有问题的信息不是常规HTML文本,而是动态呈现文本的图像。

如何提取这些图像以进一步处理它们?我在Python上使用Selenium Webdriver。

1 个答案:

答案 0 :(得分:0)

使用mechanizeBeautifulSoup无法做到的事情很少。 可以使用pytesser进行图像的进一步处理,但我没有经验。有一个知识渊博的人提供Python OCR的建议会很有意思。

import mechanize,BeautifulSoup

browser = mechanize.Browser()
html = browser.open("http://www.dreamstime.com/free-photos")
soup = BeautifulSoup.BeautifulSoup(html)
for ii, image in enumerate(soup.findAll('img')):
    _src = image['src']
    if str(_src).startswith('http://') and str(_src).endswith('.jpg'):
        print 'Storing this image:', _src
        data = browser.open(_src).read()
        fl = 'image' + str(ii) + '.jpg'
        with open(fl, 'wb') as f:
            f.write(data)
        f.closed