我目前正在设计一个专注的webcrawler。我已经测试了一些网站,直到我遇到下面的锚点(“< a href =”...“>):
href =“javascript:openDocument('DATA // PCP200803.pdf');”
我的html解析例程结果为
javascript:openDocument('DATA // PCP200803.pdf');
有没有人知道如何下载引用的文档?
非常感谢。
答案 0 :(得分:0)
对于openDocument()
命令,您只需将“DATA / PCP200803.pdf”添加到您的其他资源集合中即可获取/抓取,与页面中的任何其他超链接相同。
但是,其他JavaScript方法(例如,XMLHttpRequest的open()
)可能并不那么简单。