是否可以通过python检测PDF包含的文本列数?

时间:2019-06-03 13:15:23

标签: python pdf

我得到了一组PDF,它们的格式都不同,有些只有一列,有些只有两列,甚至有些只有三列。

有没有一种方法可以使用python检测PDF文件包含多少列?还是通过列数对文件进行分类的方法?

我对这项任务非常陌生,任何帮助/建议将不胜感激。

1 个答案:

答案 0 :(得分:0)

有一个pdftotree模块可以执行此操作。

您可以在以下位置查看其他问题:Converting a pdf to text/html in python so I can parse it