当我运行我的刮刀时,它会从标题页面中获取标题和href。该页面在页脚中有分页选项,其中包含6个新链接,这些链接被第二个" print"在我的刮刀。但是,在这一点上我无法使用这个下一页的链接,我的意思是我无法找到任何方法将它插入到函数中的某个位置,以便我可以从下一个中获取标题和href页面链接。对于我所犯的任何错误,我们深表歉意,并提前感谢。
import requests
from lxml import html
Page_link="http://www.wiseowl.co.uk/videos/"
def GrabbingData(url):
base="http://www.wiseowl.co.uk"
response = requests.get(url)
tree = html.fromstring(response.text)
title = tree.xpath('//p[@class="woVideoListDefaultSeriesTitle"]/a/text()')
link = tree.xpath('//p[@class="woVideoListDefaultSeriesTitle"]/a/@href')
for i,j in zip(title,link):
print(i,j)
pagination=tree.xpath("//div[contains(concat(' ', @class, ' '), ' woPaging ')]//a[@class='woPagingItem' or @class='woPagingNext']/@href")
for nextp in pagination:
print(base + nextp)
GrabbingData(Page_link)