错误的PDF西里尔语编码

时间:2017-11-01 13:56:25

标签: pdf encoding copy-paste

过去我们为我们提供的粉丝制作了这个目录。

当我以PDF格式打开它时,它出现在一个完美的西里尔字母中。

但是当我尝试从中复制/粘贴文本时,会出现以下情况:

  

Ã,Ã¥ÃÃÓÃÃÃÃÃÃÃÃÃÃÔ   ÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃèèÃÃÃÃÃÃÃÃÃÃÃÃÃÀ   A±Ã¬Ã¥Ã±A。 ÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃüÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃà   Ã¡Ã¨Ã²ÃÃÃÃâè,ÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃèèèÃÃÃÃÃÃÃÃÃÃÃÃèà   Ã¯Ã®Ã¬Ã¥Ã¹Ã¥Ãèÿ。 ÃÃÃèðÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃâ   ÃμëÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃÃá   Ã'ðÃÃÃÃÃÃÃÃÃÃðÃÃÃÃÃÃÃ?

任何帮助都将受到高度赞赏。

This is the pdf files in Bulgarian

1 个答案:

答案 0 :(得分:0)

我检查了您的样本文件。问题出在HebarU字体中。这种字体的西里尔字母字形放置在错误的位置,因此,如果将它们复制到剪贴板,则会得到扩展的拉丁字符。

有几种方法可以解决此问题:

  • 将字体替换为PDF文档;
  • 在源文件中替换字体并呈现新的PDF文档;
  • 尝试使用https://2cyr.com/decode/?lang=bg进行解码
  • 将文本复制到记事本并修复编码;

这是C#上的代码段:

public static void FixCyrillicText()
{
    var sourceText = File.ReadAllText(@"C:\aspose\demodata.txt");
    var sourceChars = sourceText.ToCharArray();
    for (int i = 0; i < sourceChars.Length; i++)
    {
        if ((sourceChars[i] > 127) && (sourceChars[i] < 256)) 
                                       sourceChars[i] += (char)848;   
    }            
    var fixedText = new String(sourceChars);
    File.WriteAllText(@"C:\aspose\demodata-fix.txt", fixedText);
}