Question

我试图将pdf文档转换为文本文件。一切正常，直到我打开输出文件，看到它的字符是不可读的一些中文字体

“琀攀猀琀”

这是我的命令行

gswin64c.exe -ps2ascii -sDEVICE=txtwrite -sOutputFile=outputtext.txt test.pdf

我做错了什么？

Answer 1

你还没有发布文件，所以不可能完全确定，但是......

几乎可以肯定，PDF文件中的文本不是使用ASCII编码方案编码的（可能包含日落字体），并且不包含有问题字体的ToUnicode CMap。此外，字形名称不是标准名称（或其TrueType字体，没有命名字形）。

如果没有上述任何信息，txtwrite对字符代码所代表的内容没有任何线索，因此只需逐字发出即可。

鉴于您正在看中文字形，我怀疑原始字体是CIDFont，可能是TrueType字体，子集并且没有ToUnicode CMap。

在这种情况下，获取文本的唯一方法是使用OCR。