应用错误收集

到目前为止，我正在使用pdfminer pdf2txt.py模块成功。

但是在两列格式化的pdf文件中出现问题。模块将文本检索到单个列中，这会在行的末尾生成许多拆分字。例如：

和纤维素的功能特性物质和化学成分都是负面的。

*请注意，单词以“ - ”字符分隔。

我想要的是自定义命令，以便在行的末尾单词显示为一个整体，因此不会丢失信息。可能通过添加行参数或字符边距，特定于' - '字符替换为反斜杠？

我还想知道是否有办法循环命令并使其解析一个充满pdf文件的目录，每次生成一个以原始命名的不同输出文本文件？

我不知道怎么做。