标签: parsing pdf
我有一个具有以下形状的pdf文件: https://webcache.googleusercontent.com/search?q=cache:axI83vSF4n8J:https://www.wtwdataservices.com/twds/public/ViewMarketingCollateralServlet%3FinfoId%3DA00071466614%26page%3DvAtGlance+&cd=1&hl=fr&ct=clnk&gl=fr
我需要解析它以便进行一些映射。
我尝试使用pdf矿工或textract等知名库来解析它,但是问题是我没有很好的对齐方式。
如果有人知道解析pdf bu块或按段落解析的方法,那将非常有帮助。
谢谢!!