应用错误收集

时间：2018-01-07 23:56:10

标签： python pdf mime-types

我正在尝试编写一个能够提取嵌入网站的PDF文件的Python程序，例如，在PDF查看器中。但是，我还没有找到一种可靠的方法来实现这一目标。

有没有办法或最佳做法来识别基于MIME类型的PDF？

答案 0 :(得分：0)

所以基本上你需要的是在html页面中搜索iframe并检查src属性，它应该包含pdf文件的URL。

的

<iframe src="/pdfjs/web/viewer.html?file=%2Fpdf%2Fsample-3pp.pdf" style="border: none; width: 100%; height: 100%;" frameborder="0"></iframe>

所以需要pdf网址：https://pdfobject.com/pdfjs/web/viewer.html?file=%2Fpdf%2Fsample-3pp.pdf

请注意，并非每个pdf网络阅读器都能够检查文件的位置。例如，您共享的site不会这样做。

您可以使用urllib或requests加载html网页，并使用beautifulsoup搜索html标记，或使用scrapy或其他大量工具。