应用错误收集

我正在尝试完成一项任务，其中我必须解析使用各种自定义字体编写的少数Marathi语言pdf（大多数是Microsoft许可的-Mangal，Kokila，Arial Unicode MS等）。我使用的是pdfminer工具，它无法完全按字符完全重建pdf字符。例如，当我解析为单个字符时，下面图片中的单词被解析为['get'，'ल' ，'े'，'ह'，'र'，ट्र'，'क'，'ल्'，'स'，'च'，'ां']]和编辑器打印为'इलेहरट्रलल्सचां'，这是不正确的。实际上，我必须附加一张图片来描述单词的实际含义，因为即使我直接从pdf复制它，它也会显示出类似“इलेहरसच”的字样。如何正确解析任务？如果有人甚至不知道答案，那么我探索一些想法将非常有帮助。

使用带有自定义字体的Python解析pdf时的问题

0 个答案: