我想使用基于XPDF的PDFTOTEXT命令行工具来查看PDF文件,希望获得UTF-8输出。我在StackOverflow上看到了其他人 - 问题4039930,3809761和13618330表明其他人已经能够使用它了。
当我使用选项-enc utf-8
时,会显示以下消息:
Syntax Error: Couldn't find unicodeMap file for the 'utf-8' encoding
Config Error: Couldn't get text encoding
我见过文档(其中包括)UTF-8编码是“预定义的”但我找不到我需要指向的文件。 (我已经看过基于XPDF的软件的多个不同下载,但还没有找到它。)
任何指针都会受到赞赏。
编辑:我在Windows上。
答案 0 :(得分:9)
您应该使用UTF-8
代替utf-8
。请参阅pdftotext
帮助信息:
$ pdftotext -listenc
Available encodings are:
UCS-2
ASCII7
Latin1
UTF-8
ZapfDingbats
Symbol
证明代码:
$ pdftotext -eol unix -nopgbrk -layout -enc utf-8 file.pdf
Syntax Error: Couldn't find unicodeMap file for the 'utf-8' encoding
Command Line Error: Couldn't get text encoding
$ pdftotext -eol unix -nopgbrk -layout -enc UTF-8 file.pdf
$ echo $?
0