我对python有点新手,但是我试图制作一个网络刮刀脚本,它可以在网站上下载所有图片。我使用请求和PyQuery,因为很多人在经过一些研究后推荐了它。这就是我现在所拥有的,而且我不确定该去哪里。
r = requests.get("some url")
images = pq(r.text)
for image in images.find("img"):
我知道我需要获取img的来源,但是在找到img标签后我该怎么做?此外,我已经查看了一些htmls的页面源,并且一些图片存储在他们的数据库中,因此src以" /"某些扩展"开头。所以我想知道我怎么能得到完整的网址。
答案 0 :(得分:0)
(python3)
from pyquery import PyQuery as pq
import requests
from urllib.parse import urljoin
url = "..."
response = requests.get(url).text
for image in pq(response)("img") :
imgurl = urljoin(url,image.get("src"))
在你的辩护中,the pyquery docs似乎过时了。 urllib负责将相对URL合并为绝对URL。