到目前为止,我正在使用pdfminer pdf2txt.py模块成功。
但是在两列格式化的pdf文件中出现问题。模块将文本检索到单个列中,这会在行的末尾生成许多拆分字。例如:
和纤维素的功能特性 物质和化学成分都是负面的。
*请注意,单词以“ - ”字符分隔。
我想要的是自定义命令,以便在行的末尾单词显示为一个整体,因此不会丢失信息。 可能通过添加行参数或字符边距,特定于' - '字符替换为反斜杠?
我还想知道是否有办法循环命令并使其解析一个充满pdf文件的目录,每次生成一个以原始命名的不同输出文本文件?
我不知道怎么做。