从网页中提取嵌入的pdf文档

时间:2018-01-07 23:56:10

标签: python pdf mime-types

我正在尝试编写一个能够提取嵌入网站的PDF文件的Python程序,例如,在PDF查看器中。但是,我还没有找到一种可靠的方法来实现这一目标。

有没有办法或最佳做法来识别基于MIME类型的PDF?

1 个答案:

答案 0 :(得分:0)

所以基本上你需要的是在html页面中搜索iframe并检查src属性,它应该包含pdf文件的URL。

例如: 来自https://pdfobject.com/examples/pdfjs-forced.html

<iframe src="/pdfjs/web/viewer.html?file=%2Fpdf%2Fsample-3pp.pdf" style="border: none; width: 100%; height: 100%;" frameborder="0"></iframe>

所以需要pdf网址:https://pdfobject.com/pdfjs/web/viewer.html?file=%2Fpdf%2Fsample-3pp.pdf

请注意,并非每个pdf网络阅读器都能够检查文件的位置。例如,您共享的site不会这样做。

您可以使用urllibrequests加载html网页,并使用beautifulsoup搜索html标记,或使用scrapy或其他大量工具。