使用pdf2htmlEX将pdf分割为多个html文件

时间:2014-10-14 12:25:22

标签: html pdf pdf2htmlex

我试图将PDF文件拆分为单独的HTML文件。我的意思是每个PDF页面我想要一个HTML文件。我就是这样做的:

pdf2htmlEX --split-pages 1 LMS.pdf --page-filename lms%03.html

在结果中,我得到了一个空的LMS.html和其他文件:lms%031.htmllms%032.html。问题是那些html文件格式不正确,没有CSS风格?

1 个答案:

答案 0 :(得分:2)

有趣的是......在试图解决同样的问题时,我偶然发现了你的问题。除了未设置--page-filename参数外,我使用了与您相同的命令。使用您的示例,我的pdf2htmlEX调用类似于:

pdf2htmlEX --split-pages 1 LMS.pdf 

然后我在Chrome中打开了主HTML文件,找到了一堆空白页面。经过一番搜索后,我在Firefox中打开了同一个文件。有效。很奇怪。控制台输出中未报告任何错误。当然,我甚至没想过要查看Chrome控制台输出。我什么时候发现:

Uncaught NetworkError: Failed to execute 'send' on 'XMLHttpRequest': Failed to load 'file:///...'.

感谢上帝StackOverflow。我不知道它在Firefox中的工作原理,但是如果您收到Chrome报告的错误,则需要运行Web服务器。

对我来说,最简单快捷的方法是切换到我转换PDF并运行的目录:

python -m SimpleHTTPServer

默认情况下,您的页面将在http://localhost:8000处提供。问题解决了。使用最适合您的服务器。