我正在使用PDFMiner将一些pdf报告转换为纯文本,一堆我的输入pdf刚出现了几行公认的行,然后是一个(cid:%d)列表,有点像这样...
检验报告
(CID:4)(CID:5)(CID:6)(CID:7)(CID:8)(CID:9) (CID:10)(CID:9)(CID:11)(CID:9)(CID:12)(CID:9)(CID:5)(CID:13)(CID:9) (CID:14)(CID:8)(CID:15)(CID:16)(CID:9)(CID:12) (CID:17)(CID:18)(CID:13)(CID:19)(CID:20) (CID:21)(CID:8)(CID:22)(CID:23)(CID:18)(CID:12)(CID:6)(CID:22)(CID:24) (CID:25)(CID:5)(CID:26)(CID:27)(CID:9)(CID:13)(CID:22)(CID:6)(CID:18)(CID:5) (CID:5)(CID:8)(CID:15)(CID:16)(CID:9)(CID:12)
检查出来我认为问题是文档的大部分是一种拒绝提取的字体。调试问题有点奇怪,因为字体似乎在一夜之间发生变化(不要问如何,它只是这样做)。
我不确定可能有什么重要但今天字体有属性:
name =' font0000000018f29a3e' - cidcoding =' Adobe-Identity' - unicode_map =' UnicodeMap:/ Adobe-Identity-UCS' - unicode_map.cid2unichr = {}
我在Mac上使用2.7并尝试了一些事情
作为参考,报告都是类似的形式,其中一个可以在这里找到。
http://www.ofsted.gov.uk/provider/files/959173/urn/118074.pdf
此问题适用于2010年9月之前发布的所有报告