无法在函数

时间:2017-05-12 13:34:57

标签: python web-scraping web-crawler

当我运行我的刮刀时,它会从标题页面中获取标题和href。该页面在页脚中有分页选项,其中包含6个新链接,这些链接被第二个" print"在我的刮刀。但是,在这一点上我无法使用这个下一页的链接,我的意思是我无法找到任何方法将它插入到函数中的某个位置,以便我可以从下一个中获取标题和href页面链接。对于我所犯的任何错误,我们深表歉意,并提前感谢。

import requests
from lxml import html

Page_link="http://www.wiseowl.co.uk/videos/"

def GrabbingData(url):
    base="http://www.wiseowl.co.uk"
    response = requests.get(url)
    tree = html.fromstring(response.text)
    title = tree.xpath('//p[@class="woVideoListDefaultSeriesTitle"]/a/text()')
    link = tree.xpath('//p[@class="woVideoListDefaultSeriesTitle"]/a/@href')
    for i,j in zip(title,link):
        print(i,j) 

    pagination=tree.xpath("//div[contains(concat(' ', @class, ' '), ' woPaging ')]//a[@class='woPagingItem' or @class='woPagingNext']/@href")
    for nextp in pagination:
        print(base + nextp)

GrabbingData(Page_link)

0 个答案:

没有答案