PDFtoTEXT不完全转换UTF-8编码文本,尤其是重音字符

时间:2015-09-08 15:51:53

标签: unix pdftotext xpdf

我正在开发一个需要将PDF转换为文本的项目。 PDF包含印地语字体(Mangal是特定的)以及英语。

100%的英语被转换为文本。印地语部分的转换率约为95%。剩余的5%印地语文本要么是空白,要么是“ा”。我可以弄清楚重音字符没有正确转换为文本。

我正在使用以下代码:

pdftotext -enc UTF-8 pdfname.pdf textname.txt

PDF使用以下字体

name,type,emb,sub,uni

ZDPKEY + Mangal,CID TrueType,yes,yes,yes

Mangal TrueType,no,no,no

Helvetica-Bold Type 1,no,no,no

CODUBM + Mangal-Bold,CID TrueType,yes,yes,yes

Mangal-Bold,TrueType,no,no,no

Times-Roman,Type 1 no,no,no

Helvetica,Type 1,no,no,no

以下是转换的结果。左侧是原始PDF。右侧是在记事本中打开的文字:

http://preview.tinyurl.com/qbxud9o

我的问题是,使用开源软件包在Text中是否正确捕获了5%的丢失/垃圾字符?非常感谢您的投入!

1 个答案:

答案 0 :(得分:1)

将您的代码更改为。

pdftotext -enc "UTF-8" pdfname.pdf textname.txt

它对我有用,同样它应该适合你。