使用pdfminer解析pdf无法获取文本而是cid

时间:2017-10-11 05:22:28

标签: python pdf pdfminer

我想用pdfminer解析pdf文件,大多数pdf文件我成功地获得了文本,但是对于其他文件,我只得到cid而不是真正的文本。输出是这样的:

2016 (cid:411) 1 (cid:579) 1 (cid:556)(cid:851) 2016 (cid:411) 12 (cid:579) 31 (cid:556) (cid:512)(cid:1) (cid:226)(cid:99)(cid:1054)(cid:971)(cid:174)(cid:834)(cid:97)(cid:62)(cid:844)(cid:114)(cid:580)(cid:1044)(cid:166)(cid:261)(cid:166)(cid:261)(cid:779)(cid:770)(cid:1)...

我也尝试过命令:

python tools/conv_cmap.py pdfminer/cmap Adobe-CNS1 cmaprsrc/cid2code_Adobe_CNS1.txt
python tools/conv_cmap.py pdfminer/cmap Adobe-GB1 cmaprsrc/cid2code_Adobe_GB1.txt

不起作用。

失败的pdf文件链接: http://www.neeq.com.cn/disclosure/2017/2017-01-16/1484566464_337129.pdf

提前谢谢你。

0 个答案:

没有答案