我是python的新手,并且正在按照教程制作图像抓取器,该图像抓取器从html获取标签,并使用BeautifulSoup从网站下载它们。我想专门从4chan上的Wallpapers / General下载,但是有问题。在4chan中,图像会预加载为低分辨率图像,一旦单击,将其展开为完整大小的jpeg。当我刮擦图像时,会得到低分辨率文件,并且无法找出获取完整分辨率图像的方法。有什么建议吗?
import urllib
import urllib.request
from bs4 import BeautifulSoup
i+=1
def make_soup(url):
req = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/5.0'})
thepage = urllib.request.urlopen(req)
soupdata = BeautifulSoup(thepage,"html.parser")
return soupdata
soup = make_soup("http://boards.4chan.org/wg/thread/7334999")
for img in soup.findAll('img'):
temp = (img.get('src'))
if temp[:1]=="/":
image = "http:" + temp
else:
image = temp
nametemp = img.get('alt')
if len(nametemp)==0:
filename = str(i)
i+=1
else:
filename=nametemp
imagefile = open('/media/andy/andydrive/4chan/WG/PicturesqueWG/a' +filename,'wb')
imagefile.write(urllib.request.urlopen(image).read())
imagefile.close()
感谢您的时间。