我正在尝试从PDF中复制一些文本。但是当我将它粘贴到word文件中时,它只是一些垃圾。像മുഖവുര的东西。 PDF是马拉雅拉姆语。当我看到File-> Properties-> Fonts时,它会显示BRHMalayalam(Embedded Subset),如屏幕截图所示。
我安装了各种马拉雅拉姆字体,但仍然没有运气。有人可以指导我吗?
我想复制的PDF是https://drive.google.com/open?id=0B3QCwY9Vanoza0tBdFJjd295WEE&authuser=0
答案 0 :(得分:2)
安装字体不会有帮助,因为它们嵌入在文档中。读者将使用文档中的那些。
事实上,几乎可以肯定必须使用文档中的那些,因为它可能使用了特定于每个字体子集的字符代码。
您的PDF可能包含非Unicode值的字符代码,并且不包含有问题字体的ToUnicode CMaps(请注意多次嵌入相同的字体名称)。没有现实的方法来复制文本。
你能做的最好的就是OCR吧。
答案 1 :(得分:1)
在查看文件并确认@KenS已经给出的答案后,此PDF文档的问题实际上是如何构建的。或者更确切地说,文档中的字体是如何嵌入的。
该文档包含许多Times和Arial字体,可以为其成功复制文本。这些字体作为具有WinAnsi
编码的子集嵌入。文件中的实际内容足够接近,文本似乎很好地复制了。
问题字体(BRHMalayalam)也作为子集嵌入,其编码也设置为WinAnsiEncoding
,这完全没有意义。
由于字体不包含ToUnicode
映射表,因此在复制和粘贴时,PDF查看器没有其他选择,以假设PDF中的字符确实是Win Ansi编码,这意味着您最终(乱码)拉丁字符。
答案 2 :(得分:0)
只需将pdf文件转换为word文件,然后编辑或复制或修改文件中的文本简单:) 完成后转到文件 - >另存为 - >并将doc的格式更改为pdf ..hope你理解:)