应用错误收集

我下载并尝试使用PdfParser解析带有西里尔文本的pdf文件。他用一些字母与单词分开，失去了文字的意义。使用英文文本，一切正常，但西里尔字母会出现这些问题。帮助我在提取文本时应该怎么做才能纠正这些错误？错误示例：

pdf文件中的字词：

Дарзамони ҳозира ，мо шоҳиди татбиқи технологияҳои иттилоотӣ дарҳаётиҷомеаимуосирмебошем。 Агар，дар的 солҳои аввалипайдоиш的 технологияҳои компютерӣасосанбароииҷроишиҳисобкуниҳоимураккабиилмӣистифодашудабошанд，ҳолокомпютерҳо，дар корҳоизериннигоҳдорӣ，коркардвапешкашнамуданииттилоотбанамудизарурӣ，вазифаиасосироиҷроменамоянд。

从pdf文件中提取后：

Дарзамониҳозира，мошоҳиди татбииивасеитехнологияҳои
иттилоотӣдарҳаётиҷомеаимуосирмебошем。 Агар，дарсолҳоиаввали
пайдоиштехнологияҳоикомпютерӣасосанбароииҷроиши
ҳисобкуниҳоимураккабиилмӣистифодашудабошанд，ҳоло
компютерҳо，даркорҳоизериннигоҳдорӣ，коркардвапешкашнамудани
иттилоотбанамудизарурӣ，вазифаиасосироиҷроменамоянд。

为什么Pdf Parser无法正确使用西里尔字母

0 个答案: