是否有一个很好的PDF到XHTML严格转换器

时间:2009-03-10 20:46:03

标签: pdf xhtml

它基本上都在标题中,我需要拿一堆大的PDF并在XHTML 1.0严格,关闭足够好,然后我可以清理它。 感谢

1 个答案:

答案 0 :(得分:2)

这是一个复杂的请求,因为它取决于PDF本身(以及它是如何创建的)是否可以这样做。 作为第一次尝试,我会尝试使用adobe自己的在线PDF到HTML转换器

http://www.adobe.com/products/acrobat/access_onlinetools.html

然后尝试使用像tidy

之类的东西来修复HTML

http://tidy.sourceforge.net/

如果PDF是通过扫描图像来创建的,那么可能根本就没有与之相关的文本 - 那么您可以做的最好的事情就是将页面拆分并将其转换为JPG文档,或者使用某种OCR软件关于PDF本身。

我警告你,即使PDF是手工创建的,因此其中包含文本信息,转换过程中可能会出现很多错误,必须由手。我研究的产品基本上是为公司年度报告/等做这个过程,我们最终决定将页面切换成JPG / GIF图像和HTML格式 - 因为我们尝试的其他过程引入了太多错误而且过于劳动密集解决所有问题。