使用pdfminer pdf2txt.py模块处理多列布局

时间:2013-05-27 14:52:05

标签: python pdf text nlp

到目前为止,我正在使用pdfminer pdf2txt.py模块成功。

但是在两列格式化的pdf文件中出现问题。模块将文本检索到单个列中,这会在行的末尾生成许多拆分字。例如:

  

和纤维素的功能特性   物质和化学成分都是负面的。

*请注意,单词以“ - ”字符分隔。

我想要的是自定义命令,以便在行的末尾单词显示为一个整体,因此不会丢失信息。 可能通过添加行参数或字符边距,特定于' - '字符替换为反斜杠?

我还想知道是否有办法循环命令并使其解析一个充满pdf文件的目录,每次生成一个以原始命名的不同输出文本文件?

我不知道怎么做。

0 个答案:

没有答案