应用错误收集

我正在python中编写一个爬虫程序，它必须提取指向本页所列PDFS的链接：

http://www.peekyou.com/barack_obama

（向下滚动，有一个“文档”部分，其中包含指向pdfs的链接。）

问题是“文档”部分在几秒钟之后加载到后台，可能是在javascript中。我用来获取html页面的函数不会获取该部分。

要获取html，我已经获得了这段代码：

        ...
        req = urllib2.Request(url)            
        req.add_header('User-agent', random.choice(LISTAGENT))                        
        page = urllib2.urlopen(req)                                        
        if page.info().getmaintype() == "text":
            html = page.read()
            ...

正如我所说，

没有获取该部分。

处理问题的正确方法是什么？我可以使用API吗？谢谢。

获取动态加载的html？蟒蛇

0 个答案: