解析PDF包括矢量字体

时间:2014-05-20 18:50:06

标签: php pdf ocr

我有一些PDF文档需要使用Web界面(通过浏览器)转换为文本。所有这些都在运行常用内容的服务器上(apache,php,mysql,...)。

现在......棘手的部分是,这些PDF文档是使用一些矢量字体生成的,因此几乎不可能使用标准方法解析PDF文件。

两个问题:

  1. 有人知道如何解析包含矢量字体的PDF文档吗?
  2. 那里有什么像OCR软件,我可以包含在我的PHP代码中(作为类,库,......)?
  3. pdfinfo说:

    root@gan:~/workspace# pdfinfo comp.pdf
    Producer:       Aladdin Ghostscript TESTER RELEASE 6.22
    Tagged:         no
    Pages:          2
    Encrypted:      no
    Page size:      595 x 842 pts (A4)
    File size:      56482 bytes
    Optimized:      no
    PDF version:    1.2
    

    这可能是有趣的:

    https://unix.stackexchange.com/questions/17663/how-to-know-if-a-pdf-file-is-compressed-or-not-and-to-uncompress-it

    root@gan:~/workspace# strings comp.pdf | grep /Filter
    <</Length 6 0 R/Filter /FlateDecode>>
    <</Length 150 0 R/Filter /FlateDecode>>
    

    谢谢,

0 个答案:

没有答案