只使用HTTPs请求,没有包装器,我可以在一个请求中获取页面图像及其URL。
现在,我的工作流程包含每个页面的两个请求(每~50页分批两个请求)。第一个获取页面信息及其图像:
prop=images|info&inprop=url
除其他外,这给了我一个图像列表,我可以检查它以找到可能是我要链接到的图像。我还需要其他信息,特别是标准化的标题,标题和页面网址。从那里,我使用图像标题来获取它的热链接URL:
prop=imageinfo&iiprop=url
然后我终于可以获得图片网址了。
如果可能,我希望能够在第一个请求中获取图片网址。我已尝试将imageinfo
添加到prop
项,但它并没有给我任何新内容。我尝试使用prop=pageimages
,但这只给了我一页图像,这可能不是我想要的图像。
我必须提出两个完整的请求才能获得此信息吗?我正在试图抓取的Wiki没有安装任何我知道的扩展(但我可以解决不和谐并试着说服运营商......也许)。
感谢。