我正在尝试使用pdftohtml,但我发现它偶尔会在正确解析表格时遇到困难。它将两列中的文本分组到一个单元格中,这使我尝试解析生成的数据是徒劳的!
请注意,这在PDF中只发生一次或两次,并且非常难以预测。
我已经尝试了最新版本的pdftohtml(包括0.40a测试版),但无济于事。
是否有人知道任何可能值得尝试的兼容Linux的等价物?
谢谢,
萨姆
答案 0 :(得分:1)
pdf2htmlEX是我见过的最好的pdf-to-html。
安装:brew install pdf2htmlex
我必须使用brew install -f pdf2htmlex
运行示例:pdf2htmlEX --embed cfijo --dest-dir 'your-directory' your.pdf
使用.html和ref' d图像
创建一个新目录