Question

我试图将PDF文件拆分为单独的HTML文件。我的意思是每个PDF页面我想要一个HTML文件。我就是这样做的：

pdf2htmlEX --split-pages 1 LMS.pdf --page-filename lms%03.html

在结果中，我得到了一个空的LMS.html和其他文件：lms%031.html，lms%032.html。问题是那些html文件格式不正确，没有CSS风格？

Answer 1

有趣的是......在试图解决同样的问题时，我偶然发现了你的问题。除了未设置--page-filename参数外，我使用了与您相同的命令。使用您的示例，我的pdf2htmlEX调用类似于：

pdf2htmlEX --split-pages 1 LMS.pdf

然后我在Chrome中打开了主HTML文件，找到了一堆空白页面。经过一番搜索后，我在Firefox中打开了同一个文件。有效。很奇怪。控制台输出中未报告任何错误。当然，我甚至没想过要查看Chrome控制台输出。我什么时候发现：

Uncaught NetworkError: Failed to execute 'send' on 'XMLHttpRequest': Failed to load 'file:///...'.

感谢上帝StackOverflow。我不知道它在Firefox中的工作原理，但是如果您收到Chrome报告的错误，则需要运行Web服务器。

对我来说，最简单快捷的方法是切换到我转换PDF并运行的目录：

python -m SimpleHTTPServer

默认情况下，您的页面将在http://localhost:8000处提供。问题解决了。使用最适合您的服务器。