是否有可能获得浏览器pdf查看器的HTML?

时间:2017-12-16 22:05:00

标签: html pdf web-scraping

当您在浏览器中检查pdf查看器页面时,有一个html结构,但urllib2和请求都没有返回,BS4进入infite循环。

我只想要页面的标题(在头部)。

示例页面: http://victoria.lviv.ua/html/fl5/NaturalLanguageProcessingWithPython.pdf

1 个答案:

答案 0 :(得分:1)

如果您正在使用Mozilla的pdf.js,那么您应该可以执行此操作via the PDF.js API, as detailed in this Issue.

pdf.info.get('Title')

new Metadata(pdf.catalog.metadata)
metadata.get('dc:title')