如何从4chan图像抓取器下载完整的res jpegs

时间:2018-12-30 16:20:36

标签: python web-scraping jpeg

我是python的新手,并且正在按照教程制作图像抓取器,该图像抓取器从html获取标签,并使用BeautifulSoup从网站下载它们。我想专门从4chan上的Wallpapers / General下载,但是有问题。在4chan中,图像会预加载为低分辨率图像,一旦单击,将其展开为完整大小的jpeg。当我刮擦图像时,会得到低分辨率文件,并且无法找出获取完整分辨率图像的方法。有什么建议吗?

import urllib
import urllib.request
from bs4 import BeautifulSoup

i+=1
def make_soup(url):
    req = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/5.0'})
    thepage = urllib.request.urlopen(req)
    soupdata = BeautifulSoup(thepage,"html.parser")
    return soupdata

soup = make_soup("http://boards.4chan.org/wg/thread/7334999")
for img in soup.findAll('img'):
    temp = (img.get('src'))
    if temp[:1]=="/":
        image = "http:" + temp
    else:
        image = temp

    nametemp = img.get('alt')
    if len(nametemp)==0:
            filename = str(i)
            i+=1
    else:
        filename=nametemp

    imagefile = open('/media/andy/andydrive/4chan/WG/PicturesqueWG/a' +filename,'wb')
    imagefile.write(urllib.request.urlopen(image).read())
    imagefile.close()

感谢您的时间。

0 个答案:

没有答案