是否可以通过GET请求从PDF文档中检索单个页面?

时间:2011-10-11 17:53:37

标签: pdf curl webharvest

我需要将数字存储库迁移到新平台,但无法访问旧平台,因此我已经尝试通过网络检索对象。

某些对象包含其他对象。对于此类型的大多数对象,识别/检索组件及其元数据是一个简单的过程。但对于某些PDF文件,似乎所引用的组件实际上是对单个文件中的单个页面的引用,而不是单独的页面。

例如,http://content.wwu.edu/cdm4/document.php?CISOROOT=/wfront&CISOPTR=2711给了我一个4页的对象。 http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711&CISOMODE=print允许我检索整个文档。 http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711检索一个XML文档,告诉我组件页面的标识符,但是当我尝试卷曲它们时,我只得到零长度的文档。但是当涉及非PDF文档时使用相同的方法,我得到实际文件 - 这就是为什么我认为只检索单个页面。

如何检索单个页面,因为我必须将它们作为单个对象存储在新平台中?感谢

1 个答案:

答案 0 :(得分:0)

最重要的是,只有在服务器上有东西可以为您提取单个页面时,才会出现这种情况。

当我打开wireshark时,我发现用户界面上的操作是使用以下语法调用服务器端PDF应用程序:

http://content.wwu.edu/cgi-bin/showpdf.exe?CISOROOT=/wfront&CISOPTR=2711&CISOPAGE=3

其中2711是对象的名称,3是相关文件的页面。进一步的实验表明,我可以为我能识别的任何PDF提取任何页面。

对于有类似问题的其他人,wireshark是你的朋友。