我正在与tesseract合作,并使用以下命令将图像转换为可搜索的pdf形式。
tesseract test.png -l urd -psm 3 result pdf
这是我以pdf格式转换的图像。
转换后,当我将文本复制到pdf文件中并粘贴到任何文本编辑器(word,记事本等)4中时,我得到以下结果。
Lf ELINOR BI LF ERE我LPM DAT吗? MON IVAN DEBI OE SI D7 Pipips FEIN AAASQE PIAA IG或esddspp- PLDI AOL ko26RDLT HOY
我尝试了两种方式(在acrobat中打开pdf文件并在浏览器中打开文件,并在文本编辑器中复制/粘贴数据,这两种方法都不适合我,我也尝试了以下两个链接上给出的所有解决方案,单一的解决方案对我有用。
https://stackoverflow.com/questions/9143154/how-to-cut-paste-from-pdf-with-non-ascii-encoding
和
https://stackoverflow.com/questions/12703387/pdf-font-encoding-why-cant-i-copy-text-from-a-pdf
任何帮助将不胜感激。预先感谢。