Question

我正在使用pdf2htmlEX来将pdf文件转换为html。此后，我也从文件中提取文本。

问题：

我遇到了一个文件，该文件的转换后的html的文本不可读： https://dspace.mit.edu/openaccess-disseminate/1721.1/101159

我使用的命令：

pdf2htmlEX --tounicode 1 ./file.pdf

html上的文本有很多空格和引号-

[2]“ M.” Ha h n，“ O。” B ar bie ri，“ F.P。” C a m p a na，“ R。”Kötz，“ R。” G alla y，“ A p p l。“ Ph ys。” A：“ M ter。” S ci。“ Proce ss。“ 8 2”（2 00 6）“

为--tounicode arg设置其他值会使文本变得乱七八糟。

有一个使用此库的在线工具，在那里生成的html很好，这使其不是pdf2htmlEX错误，而是配置或版本问题。可能与poppler或fontforge有关。

版本：

pdf2htmlEX version 0.14.6
Copyright 2012-2015 Lu Wang <coolwanglu@gmail.com> and other contributors
Libraries: 
  poppler 0.54.0
  libfontforge 20180906
  cairo 1.14.6
Default data-dir: /usr/local/share/pdf2htmlEX
Supported image format: png jpg svg

有什么建议吗？

Answer 1

我认为以下两个步骤将起作用：

使用正则表达式删除不必要的空格和引号。
为每个引用添加/添加段落标签，如下所示：

<div>
::before
<p>[2] something </p>
::after
</div>

pdf2HtmlEX-html上的文本与源pdf不同

1 个答案: