我下载并尝试使用PdfParser解析带有西里尔文本的pdf文件。他用一些字母与单词分开,失去了文字的意义。使用英文文本,一切正常,但西里尔字母会出现这些问题。帮助我在提取文本时应该怎么做才能纠正这些错误? 错误示例:
pdf文件中的字词:
Дарзамони ҳозира ,мо шоҳиди татбиқи технологияҳои иттилоотӣ дарҳаётиҷомеаимуосирмебошем。 Агар,дар的 солҳои аввалипайдоиш的 технологияҳои компютерӣасосанбароииҷроишиҳисобкуниҳоимураккабиилмӣистифодашудабошанд,ҳолокомпютерҳо,дар корҳоизериннигоҳдорӣ,коркардвапешкашнамуданииттилоотбанамудизарурӣ,вазифаиасосироиҷроменамоянд。
从pdf文件中提取后:
Дарзамониҳозира,мошоҳиди татбииивасеитехнологияҳои
иттилоотӣдарҳаётиҷомеаимуосирмебошем。 Агар,дарсолҳоиаввали
пайдоиштехнологияҳоикомпютерӣасосанбароииҷроиши
ҳисобкуниҳоимураккабиилмӣистифодашудабошанд,ҳоло
компютерҳо,даркорҳоизериннигоҳдорӣ,коркардвапешкашнамудани
иттилоотбанамудизарурӣ,вазифаиасосироиҷроменамоянд。