PDFTOTEXT输出需要UTF-8格式的文件在哪里?

时间:2013-11-21 17:09:08

标签: utf-8 pdftotext

我想使用基于XPDF的PDFTOTEXT命令行工具来查看PDF文件,希望获得UTF-8输出。我在StackOverflow上看到了其他人 - 问题4039930,3809761和13618330表明其他人已经能够使用它了。

当我使用选项-enc utf-8时,会显示以下消息:

Syntax Error: Couldn't find unicodeMap file for the 'utf-8' encoding
Config Error: Couldn't get text encoding

我见过文档(其中包括)UTF-8编码是“预定义的”但我找不到我需要指向的文件。 (我已经看过基于XPDF的软件的多个不同下载,但还没有找到它。)

任何指针都会受到赞赏。

编辑:我在Windows上。

1 个答案:

答案 0 :(得分:9)

您应该使用UTF-8代替utf-8。请参阅pdftotext帮助信息:

$ pdftotext -listenc
Available encodings are:
UCS-2
ASCII7
Latin1
UTF-8
ZapfDingbats
Symbol

证明代码:

$ pdftotext -eol unix -nopgbrk -layout -enc utf-8 file.pdf
Syntax Error: Couldn't find unicodeMap file for the 'utf-8' encoding
Command Line Error: Couldn't get text encoding
$ pdftotext -eol unix -nopgbrk -layout -enc UTF-8 file.pdf
$ echo $?
0