pdf2HtmlEX-html上的文本与源pdf不同

时间:2018-09-06 07:54:32

标签: poppler fontforge pdf2htmlex

我正在使用pdf2htmlEX来将pdf文件转换为html。此后,我也从文件中提取文本。

问题:

我遇到了一个文件,该文件的转换后的html的文本不可读: https://dspace.mit.edu/openaccess-disseminate/1721.1/101159

我使用的命令:

pdf2htmlEX --tounicode 1 ./file.pdf

html上的文本有很多空格和引号- enter image description here

  

[2]“ M.” Ha h n,“ O。” B ar bie ri,“ F.P。” C   a m p a na,“ R。”Kötz,“ R。” G alla y,“ A p p   l。“ Ph ys。” A:“ M ter。” S ci。“ Proce   ss。“ 8 2”(2 00 6)“

--tounicode arg设置其他值会使文本变得乱七八糟。

有一个使用此库的在线工具,在那里生成的html很好,这使其不是pdf2htmlEX错误,而是配置或版本问题。可能与poppler或fontforge有关。

版本:

pdf2htmlEX version 0.14.6
Copyright 2012-2015 Lu Wang <coolwanglu@gmail.com> and other contributors
Libraries: 
  poppler 0.54.0
  libfontforge 20180906
  cairo 1.14.6
Default data-dir: /usr/local/share/pdf2htmlEX
Supported image format: png jpg svg

有什么建议吗?

1 个答案:

答案 0 :(得分:-1)

我认为以下两个步骤将起作用:

  1. 使用正则表达式删除不必要的空格和引号。
  2. 为每个引用添加/添加段落标签,如下所示:
<div>
::before
<p>[2] something </p>
::after
</div>