我正在尝试完成一项任务,其中我必须解析使用各种自定义字体编写的少数Marathi语言pdf(大多数是Microsoft许可的-Mangal,Kokila,Arial Unicode MS等)。我使用的是pdfminer工具,它无法完全按字符完全重建pdf字符。例如,当我解析为单个字符时,下面图片中的单词被解析为['get','ल' ,'े','ह','र',ट्र','क','ल्','स','च','ां']]和编辑器打印为'इलेहरट्रलल्सचां',这是不正确的。 实际上,我必须附加一张图片来描述单词的实际含义,因为即使我直接从pdf复制它,它也会显示出类似“इलेहरसच”的字样。 如何正确解析任务? 如果有人甚至不知道答案,那么我探索一些想法将非常有帮助。