解析pdf表会返回带有(cid:xxx)

时间:2019-01-02 06:05:46

标签: pdfminer python-camelot

Camelot能够从pdf页面正确识别表格轮廓,但是,有些列包含带有cid的文本,例如“(cid:1005)(cid:856)(cid:1008)(cid:1009)(cid:1081) )”。有没有人找到解决这个问题的解决方案?

我已经搜索了堆栈溢出,但是找不到解决方案来解决将cid解析为纯文本的问题。

0 个答案:

没有答案