pdftohtml的替代品

时间:2011-04-01 16:28:48

标签: pdftotext pdf-to-html

我正在尝试使用pdftohtml,但我发现它偶尔会在正确解析表格时遇到困难。它将两列中的文本分组到一个单元格中,这使我尝试解析生成的数据是徒劳的!

请注意,这在PDF中只发生一次或两次,并且非常难以预测。

我已经尝试了最新版本的pdftohtml(包括0.40a测试版),但无济于事。

是否有人知道任何可能值得尝试的兼容Linux的等价物?

谢谢,

萨姆

1 个答案:

答案 0 :(得分:1)

pdf2htmlEX是我见过的最好的pdf-to-html。

安装:brew install pdf2htmlex

我必须使用brew install -f pdf2htmlex

运行示例:pdf2htmlEX --embed cfijo --dest-dir 'your-directory' your.pdf

使用.html和ref' d图像

创建一个新目录