获取动态加载的html?蟒蛇

时间:2013-05-21 16:22:45

标签: python html fetch web-crawler

我正在python中编写一个爬虫程序,它必须提取指向本页所列PDFS的链接:

http://www.peekyou.com/barack_obama

(向下滚动,有一个“文档”部分,其中包含指向pdfs的链接。)

问题是“文档”部分在几秒钟之后加载到后台,可能是在javascript中。我用来获取html页面的函数不会获取该部分。

要获取html,我已经获得了这段代码:

        ...
        req = urllib2.Request(url)            
        req.add_header('User-agent', random.choice(LISTAGENT))                        
        page = urllib2.urlopen(req)                                        
        if page.info().getmaintype() == "text":
            html = page.read()
            ...
正如我所说,

没有获取该部分。

处理问题的正确方法是什么?我可以使用API​​吗?谢谢。

0 个答案:

没有答案