我正在尝试在Linux模拟机上使用pdftotext
转换.txt中的pdf文档。该文档是用英文编写的,但输出文本的结果如下:
23!,&/$!%+!,#$!AB&017"*&7!"-M')(!-)!gE*X/-&$!$-&23!')!,#$!
(-.$1!/*/-223!(/-&-)E ,$$*!,#-,!,#$!%,#$&!C2-3$&!>'22!($,!
,#$!-9[-0$),!0%&)$&7!S/0#!-!*',/-,'%)!'*!*$$)!')!V'-E
(&-.!Z7!I,!'*!@#',$8*!,/&)1!D/,!)%!.-,,$&!>#$&$!@#',$!(%$
*1!^2-0M!>'22!D$!-D2$!,%!+2'C!,#$ 9'*0!%)!,#$!gE*X/-&$!N(
KO!-)9!,-M$!,#$!#<!0%&
是否存在编码问题?可能是命令行中的错误选项?
编辑:问题是一样的,即使我尝试从pdf文档中复制一堆文本,最后将其粘贴到文本文档中。
编辑#2:Producer
pdf属性为:Mac OS X 10.5.6 Quartz PDFContext
,大多数字体的编码为WinAnsi
或MacRoman
。也许这会有所帮助。