标签: python xml pdf pdfminer
我将某些pdf文档转换为文本,为此我使用pdfminer(使用pdf2txt.py)。我没有直接从pdf转换为txt,因为我想发信号格式如斜体或粗体。因此我首先将pdf转换为xml。 我使用以下方法将pdf转换为xml:
pdf2txt.py -t xml -o out_file.xml in_file.pdf
我的问题是,在转换此pdf时,我在xml文件中发现了一个奇怪的错误。如果将其转换为xml,请检查以下内容:
所以,我的问题是,是否有解决方案来避免此错误。