为什么Pdf Parser无法正确使用西里尔字母

时间:2017-09-30 10:41:09

标签: php parsing pdf

我下载并尝试使用PdfParser解析带有西里尔文本的pdf文件。他用一些字母与单词分开,失去了文字的意义。使用英文文本,一切正常,但西里尔字母会出现这些问题。帮助我在提取文本时应该怎么做才能纠正这些错误? 错误示例:

pdf文件中的字词:

Дарзамони ҳозира ,мо шоҳиди татбиқи технологияҳои иттилоотӣ дарҳаётиҷомеаимуосирмебошем。 Агар,дар的 солҳои аввалипайдоиш的 технологияҳои компютерӣасосанбароииҷроишиҳисобкуниҳоимураккабиилмӣистифодашудабошанд,ҳолокомпютерҳо,дар корҳоизериннигоҳдорӣ,коркардвапешкашнамуданииттилоотбанамудизарурӣ,вазифаиасосироиҷроменамоянд。

从pdf文件中提取后:

Дарзамониҳозира,мошоҳиди татбииивасеитехнологияҳои
иттилоотӣдарҳаётиҷомеаимуосирмебошем。 Агар,дарсолҳоиаввали
пайдоиштехнологияҳоикомпютерӣасосанбароииҷроиши
ҳисобкуниҳоимураккабиилмӣистифодашудабошанд,ҳоло
компютерҳо,даркорҳоизериннигоҳдорӣ,коркардвапешкашнамудани
иттилоотбанамудизарурӣ,вазифаиасосироиҷроменамоянд。

0 个答案:

没有答案