在C#应用程序中,我想打开一个网址并下载pdf。
当从浏览器点击此URL时,页面会快速加载并开始我认为是ajax调用。几秒钟后,将显示浏览器下载提示,其中包含pdf文件。
我试图通过WebClient打开此网址。我返回的流不是pdf文件,而是页面的实际html。
如何检测pdf文件已加载并下载?
答案 0 :(得分:0)
如果我没有弄错,WebClient对JavaScript没有任何线索,它根本不会运行AJAX代码,它只是获取页面的HTML并将其留在那里。 而且,由于Javascript可能会解析PDF的URL,或者按需生成PDF,甚至通过Javascript流式传输,您确实需要支持活动内容。
这似乎有点像Selenium。 http://www.seleniumhq.org/ 它会生成一个实际的浏览器,并将该浏览器引导到您需要的内容,或者运行PhantomJS无头浏览器并获取您想要的内容。
可能有点矫枉过正,知识渊博的人可能会有更好的答案,但这就是我在需要提取PDF,CSV'的应用程序中使用的内容。来自许多不同网站的s和其他文件。