我正在尝试编写一个能够提取嵌入网站的PDF文件的Python程序,例如,在PDF查看器中。但是,我还没有找到一种可靠的方法来实现这一目标。
有没有办法或最佳做法来识别基于MIME类型的PDF?
答案 0 :(得分:0)
所以基本上你需要的是在html页面中搜索iframe
并检查src
属性,它应该包含pdf文件的URL。
例如: 来自https://pdfobject.com/examples/pdfjs-forced.html
的<iframe src="/pdfjs/web/viewer.html?file=%2Fpdf%2Fsample-3pp.pdf" style="border: none; width: 100%; height: 100%;" frameborder="0"></iframe>
所以需要pdf网址:https://pdfobject.com/pdfjs/web/viewer.html?file=%2Fpdf%2Fsample-3pp.pdf
请注意,并非每个pdf网络阅读器都能够检查文件的位置。例如,您共享的site不会这样做。
您可以使用urllib
或requests
加载html网页,并使用beautifulsoup
搜索html标记,或使用scrapy
或其他大量工具。