我正在尝试解析多个网页以提取特定的文本和图像。到目前为止,我已经能够解析一个页面了,但我正在寻找一种在以下链接中的所有页面上运行脚本的方法:http://www.bbc.co.uk/food/recipes/search?cuisines[]=british(其中有108个)。
我基本上需要这些图像以及它们旁边的文字。
答案 0 :(得分:1)
在我意识到你只需要一个for循环之前,我把方式付出太多努力。
这是同一页面的网址,只是这次以页码作为参数:
http://www.bbc.co.uk/food/recipes/search?page=1&cuisines[0]=british&sortBy=lastModified
更改页码,您将能够获得所有108个页面。
for i in range(1,109):
url = "http://www.bbc.co.uk/food/recipes/search?page={pagenum}&cuisines[0]=british&sortBy=lastModified".format(pagenum = i)
doYourThing(url)