使用自定义FONT从PDF复制文本

时间:2015-05-13 18:16:57

标签: pdf fonts adobe

我正在尝试从PDF中复制一些文本。但是当我将它粘贴到word文件中时,它只是一些垃圾。像മുഖവുര的东西。 PDF是马拉雅拉姆语。当我看到File-> Properties-> Fonts时,它会显示BRHMalayalam(Embedded Subset),如屏幕截图所示。

enter image description here

我安装了各种马拉雅拉姆字体,但仍然没有运气。有人可以指导我吗?

我想复制的PDF是https://drive.google.com/open?id=0B3QCwY9Vanoza0tBdFJjd295WEE&authuser=0

3 个答案:

答案 0 :(得分:2)

安装字体不会有帮助,因为它们嵌入在文档中。读者将使用文档中的那些。

事实上,几乎可以肯定必须使用文档中的那些,因为它可能使用了特定于每个字体子集的字符代码。

您的PDF可能包含非Unicode值的字符代码,并且不包含有问题字体的ToUnicode CMaps(请注意多次嵌入相同的字体名称)。没有现实的方法来复制文本。

你能做的最好的就是OCR吧。

答案 1 :(得分:1)

在查看文件并确认@KenS已经给出的答案后,此PDF文档的问题实际上是如何构建的。或者更确切地说,文档中的字体是如何嵌入的。

该文档包含许多Times和Arial字体,可以为其成功复制文本。这些字体作为具有WinAnsi编码的子集嵌入。文件中的实际内容足够接近,文本似乎很好地复制了。

问题字体(BRHMalayalam)也作为子集嵌入,其编码设置为WinAnsiEncoding,这完全没有意义。

enter image description here

由于字体不包含ToUnicode映射表,因此在复制和粘贴时,PDF查看器没有其他选择,以假设PDF中的字符确实是Win Ansi编码,这意味着您最终(乱码)拉丁字符。

答案 2 :(得分:0)

只需将pdf文件转换为word文件,然后编辑或复制或修改文件中的文本简单:) 完成后转到文件 - >另存为 - >并将doc的格式更改为pdf ..hope你理解:)