我试图将PDF文件拆分为单独的HTML文件。我的意思是每个PDF页面我想要一个HTML文件。我就是这样做的:
pdf2htmlEX --split-pages 1 LMS.pdf --page-filename lms%03.html
在结果中,我得到了一个空的LMS.html
和其他文件:lms%031.html
,lms%032.html
。问题是那些html文件格式不正确,没有CSS风格?
答案 0 :(得分:2)
有趣的是......在试图解决同样的问题时,我偶然发现了你的问题。除了未设置--page-filename
参数外,我使用了与您相同的命令。使用您的示例,我的pdf2htmlEX
调用类似于:
pdf2htmlEX --split-pages 1 LMS.pdf
然后我在Chrome中打开了主HTML文件,找到了一堆空白页面。经过一番搜索后,我在Firefox中打开了同一个文件。有效。很奇怪。控制台输出中未报告任何错误。当然,我甚至没想过要查看Chrome控制台输出。我什么时候发现:
Uncaught NetworkError: Failed to execute 'send' on 'XMLHttpRequest': Failed to load 'file:///...'.
感谢上帝StackOverflow。我不知道它在Firefox中的工作原理,但是如果您收到Chrome报告的错误,则需要运行Web服务器。
对我来说,最简单快捷的方法是切换到我转换PDF并运行的目录:
python -m SimpleHTTPServer
默认情况下,您的页面将在http://localhost:8000
处提供。问题解决了。使用最适合您的服务器。