鉴于PDF文档,是否可以生成XSL-FO(FOP)模板?
显然,这将是一次性的事情 - 生成的模板只是创建一个适当模板的起点,可以提取适当的数据。
对我来说,这样做的理想工具是基于Java的工具,应该可以从命令行或通过ANT任务执行。如果做不到这一点,它将在Linux和MacOS X上运行。
答案 0 :(得分:2)
我知道没有这样的工具。没有文档结构信息的PDF(标记PDF)很像扫描页面。没有语义。你甚至不能确定你能猜到段落开始或结束的正确位置。如果您有标记PDF,您可能会进一步取决于文档结构中的详细程度。但我很确定你永远不会得到令人满意的结果。 IMO你可以更快地学习XSLT并手动重新创建文档模板(即样式表)。这样可以获得良好的代码可读性,更好的语义以及更好地分解类似文档类型之间的公共元素的机会。