标签: pdf unicode character-encoding hebrew
我有一个希伯来语的PDF文件,它显示正确,但是当复制粘贴时它是Gibberish。 使用PDF Miner和'xxd',我可以得到非常类似于Unicode的编码,但有一些转变。
希伯来语'מגרסת',在Unicode中为{d79e d792 d7a8 d7a1 d7aa},在此编码为{c39e c392 c3a8 c3a1 c3aa}。
{d79e d792 d7a8 d7a1 d7aa}
{c39e c392 c3a8 c3a1 c3aa}
这是一种已知的编码吗?
当然,我可以编写一个小例程,将所有c3前缀更改为d7,但如果可能的话,我宁愿使用'iconv'。
c3
d7