我试图将pdf文档转换为文本文件。一切正常,直到我打开输出文件,看到它的字符是不可读的一些中文字体
“琀攀猀琀”
这是我的命令行
gswin64c.exe -ps2ascii -sDEVICE=txtwrite -sOutputFile=outputtext.txt test.pdf
我做错了什么?
答案 0 :(得分:2)
你还没有发布文件,所以不可能完全确定,但是......
几乎可以肯定,PDF文件中的文本不是使用ASCII编码方案编码的(可能包含日落字体),并且不包含有问题字体的ToUnicode CMap。此外,字形名称不是标准名称(或其TrueType字体,没有命名字形)。
如果没有上述任何信息,txtwrite对字符代码所代表的内容没有任何线索,因此只需逐字发出即可。
鉴于您正在看中文字形,我怀疑原始字体是CIDFont,可能是TrueType字体,子集并且没有ToUnicode CMap。
在这种情况下,获取文本的唯一方法是使用OCR。