我正在寻找关于最佳(希望)API(但我会满足于)的工具,该工具将采用PDF并返回相应的HTML。 “最佳”,我的意思是最合理的结构形式(例如,当PDF表示中存在可用的标题时生成HTML“标题”标签)主要是,虽然可用性/可访问性也是优先考虑的。理想情况下,我想纯粹在Java API级别与此接口,而不是Java代码读取另一个可执行文件的stdout。我意识到这不是一个微不足道的问题(http://discerning.com/hacks/docutils/pdf2xml/readme.html),我想了解是否有任何真正体面的解决方案缺少Adobe本身。即使在Adobe方面,我也欢迎有关MARS或其他解决方案经验的反馈。