我有一些PDF文档需要使用Web界面(通过浏览器)转换为文本。所有这些都在运行常用内容的服务器上(apache,php,mysql,...)。
现在......棘手的部分是,这些PDF文档是使用一些矢量字体生成的,因此几乎不可能使用标准方法解析PDF文件。
两个问题:
pdfinfo说:
root@gan:~/workspace# pdfinfo comp.pdf
Producer: Aladdin Ghostscript TESTER RELEASE 6.22
Tagged: no
Pages: 2
Encrypted: no
Page size: 595 x 842 pts (A4)
File size: 56482 bytes
Optimized: no
PDF version: 1.2
这可能是有趣的:
root@gan:~/workspace# strings comp.pdf | grep /Filter
<</Length 6 0 R/Filter /FlateDecode>>
<</Length 150 0 R/Filter /FlateDecode>>
谢谢,