我有pdf文件,这些文件具有电子原点,但可以采用各种布局。这些pdf包括表格,有时会以+90或-90度旋转。有时可能会发生,文件的第一行具有正常方向(0度),但所有其他内容都会旋转。
这些文件的元数据不包含旋转信息,旋转始终为0 。我需要在https://pdftables.com的帮助下从这些文件中提取表格。
Pdftables是第一个基于pdfminer python库的开源,现在它是一个商业产品。当我将这些奇怪的页面发送到pdftables时会发生什么,内容无法正确读取。所以我需要弄清楚,在我发送之前页面的方向。
不幸的是,这并不总是有效,因为pdfminer并不总是给我与pdftables相同的结果。
拜托,您有什么建议,如何解决这个问题?感谢