PDFMiner无法提取字体

时间:2014-04-07 09:32:02

标签: python pdf fonts pdfminer

我正在使用PDFMiner将一些pdf报告转换为纯文本,一堆我的输入pdf刚出现了几行公认的行,然后是一个(cid:%d)列表,有点像这样...

  

检验报告

     

(CID:4)(CID:5)(CID:6)(CID:7)(CID:8)(CID:9)   (CID:10)(CID:9)(CID:11)(CID:9)(CID:12)(CID:9)(CID:5)(CID:13)(CID:9)   (CID:14)(CID:8)(CID:15)(CID:16)(CID:9)(CID:12)   (CID:17)(CID:18)(CID:13)(CID:19)(CID:20)   (CID:21)(CID:8)(CID:22)(CID:23)(CID:18)(CID:12)(CID:6)(CID:22)(CID:24)   (CID:25)(CID:5)(CID:26)(CID:27)(CID:9)(CID:13)(CID:22)(CID:6)(CID:18)(CID:5)   (CID:5)(CID:8)(CID:15)(CID:16)(CID:9)(CID:12)

检查出来我认为问题是文档的大部分是一种拒绝提取的字体。调试问题有点奇怪,因为字体似乎在一夜之间发生变化(不要问如何,它只是这样做)。

我不确定可能有什么重要但今天字体有属性:

name =' font0000000018f29a3e' - cidcoding =' Adob​​e-Identity' - unicode_map =' UnicodeMap:/ Adob​​e-Identity-UCS' - unicode_map.cid2unichr = {}

我在Mac上使用2.7并尝试了一些事情

  1. PyPDF2
  2. 复制并粘贴到textedit(字符为空白)
  3. 使用cmaps重建卸载并重新安装
  4. 关闭机器然后再打开
  5. 作为参考,报告都是类似的形式,其中一个可以在这里找到。

    http://www.ofsted.gov.uk/provider/files/959173/urn/118074.pdf

    此问题适用于2010年9月之前发布的所有报告

0 个答案:

没有答案