无法从pdf文件中复制粘贴的urdu文本(在我的编辑器中获取奇怪的英语文本而不是urdu)

时间:2018-08-27 10:34:12

标签: python pdf text tesseract word

我正在与tesseract合作,并使用以下命令将图像转换为可搜索的pdf形式。

tesseract test.png -l urd -psm 3 result pdf

这是我以pdf格式转换的图像。

enter image description here

转换后,当我将文本复制到pdf文件中并粘贴到任何文本编辑器(word,记事本等)4中时,我得到以下结果。

  

Lf ELINOR BI LF ERE我LPM DAT吗? MON IVAN DEBI OE SI D7 Pipips FEIN   AAASQE PIAA IG或esddspp- PLDI AOL ko26RDLT HOY

我尝试了两种方式(在acrobat中打开pdf文件并在浏览器中打开文件,并在文本编辑器中复制/粘贴数据,这两种方法都不适合我,我也尝试了以下两个链接上给出的所有解决方案,单一的解决方案对我有用。

https://stackoverflow.com/questions/9143154/how-to-cut-paste-from-pdf-with-non-ascii-encoding

https://stackoverflow.com/questions/12703387/pdf-font-encoding-why-cant-i-copy-text-from-a-pdf

任何帮助将不胜感激。预先感谢。

0 个答案:

没有答案