应用错误收集

我将某些pdf文档转换为文本，为此我使用pdfminer（使用pdf2txt.py）。我没有直接从pdf转换为txt，因为我想发信号格式如斜体或粗体。因此我首先将pdf转换为xml。我使用以下方法将pdf转换为xml：

pdf2txt.py -t xml -o out_file.xml in_file.pdf

我的问题是，在转换此pdf时，我在xml文件中发现了一个奇怪的错误。如果将其转换为xml，请检查以下内容：

在pdf的第21页，第二栏以＆＃34; Recentemente ...＆＃34;开始。
第一栏（同一页面）的第一段以＆＃34; ... lhes falta＆＃34;结尾。
生成的转换xml文件包含第2项之后的项目1.（和完整列）。您可以在xml文件的第128370行中检查它。然后在第131782行中，正确的顺序再次开始，即以＆＃34; O terceiro ...＆＃34;开头的段落。如下。

所以，我的问题是，是否有解决方案来避免此错误。