标签: pdfminer python-camelot
Camelot能够从pdf页面正确识别表格轮廓,但是,有些列包含带有cid的文本,例如“(cid:1005)(cid:856)(cid:1008)(cid:1009)(cid:1081) )”。有没有人找到解决这个问题的解决方案?
我已经搜索了堆栈溢出,但是找不到解决方案来解决将cid解析为纯文本的问题。