应用错误收集

我正在使用PDFMiner将一些pdf报告转换为纯文本，一堆我的输入pdf刚出现了几行公认的行，然后是一个（cid：％d）列表，有点像这样...

检验报告

（CID：4）（CID：5）（CID：6）（CID：7）（CID：8）（CID：9）   （CID：10）（CID：9）（CID：11）（CID：9）（CID：12）（CID：9）（CID：5）（CID：13）（CID：9）   （CID：14）（CID：8）（CID：15）（CID：16）（CID：9）（CID：12）   （CID：17）（CID：18）（CID：13）（CID：19）（CID：20）   （CID：21）（CID：8）（CID：22）（CID：23）（CID：18）（CID：12）（CID：6）（CID：22）（CID：24）   （CID：25）（CID：5）（CID：26）（CID：27）（CID：9）（CID：13）（CID：22）（CID：6）（CID：18）（CID：5）   （CID：5）（CID：8）（CID：15）（CID：16）（CID：9）（CID：12）

检查出来我认为问题是文档的大部分是一种拒绝提取的字体。调试问题有点奇怪，因为字体似乎在一夜之间发生变化（不要问如何，它只是这样做）。

我不确定可能有什么重要但今天字体有属性：

name =＆＃39; font0000000018f29a3e＆＃39; - cidcoding =＆＃39; Adobe-Identity＆＃39; - unicode_map =＆＃39; UnicodeMap：/ Adobe-Identity-UCS＆＃39; - unicode_map.cid2unichr = {}

我在Mac上使用2.7并尝试了一些事情

PyPDF2
复制并粘贴到textedit（字符为空白）
使用cmaps重建卸载并重新安装
关闭机器然后再打开

作为参考，报告都是类似的形式，其中一个可以在这里找到。

http://www.ofsted.gov.uk/provider/files/959173/urn/118074.pdf

此问题适用于2010年9月之前发布的所有报告

PDFMiner无法提取字体

0 个答案: