我正在python中编写一个爬虫程序,它必须提取指向本页所列PDFS的链接:
http://www.peekyou.com/barack_obama
(向下滚动,有一个“文档”部分,其中包含指向pdfs的链接。)
问题是“文档”部分在几秒钟之后加载到后台,可能是在javascript中。我用来获取html页面的函数不会获取该部分。
要获取html,我已经获得了这段代码:
...
req = urllib2.Request(url)
req.add_header('User-agent', random.choice(LISTAGENT))
page = urllib2.urlopen(req)
if page.info().getmaintype() == "text":
html = page.read()
...
正如我所说,没有获取该部分。
处理问题的正确方法是什么?我可以使用API吗?谢谢。