确定pdf文档

时间:2017-09-06 08:00:47

标签: opencv pdf hough-transform pdfminer

我有pdf文件,这些文件具有电子原点,但可以采用各种布局。这些pdf包括表格,有时会以+90或-90度旋转。有时可能会发生,文件的第一行具有正常方向(0度),但所有其他内容都会旋转。

这些文件的元数据不包含旋转信息,旋转始终为0 。我需要在https://pdftables.com的帮助下从这些文件中提取表格。

Pdftables是第一个基于pdfminer python库的开源,现在它是一个商业产品。当我将这些奇怪的页面发送到pdftables时会发生什么,内容无法正确读取。所以我需要弄清楚,在我发送之前页面的方向。

  • 我尝试用pdfminer自己提取文本并将其与unix工具 pdftotext (可正确提取文本)中的提取进行比较,每当出现“差异”时,我会将文件转换为旋转。

不幸的是,这并不总是有效,因为pdfminer并不总是给我与pdftables相同的结果。

  • 我已经尝试过pythons OpenCV库来获取这些pdf的图像,但这只能识别文本的偏斜,而不是90度角。
  • 我也尝试过Hough变换方法从文本中查找行并估计它们的方向,但由于页面上有表格,因此很难估计行是文本还是实际行。

拜托,您有什么建议,如何解决这个问题?感谢

0 个答案:

没有答案