应用错误收集

如何将pdf转换为干净格式的HTML？

时间：2012-09-10 20:21:34

标签： html pdf

是否有一个网站或一个软件可以将PDF干净地转换为HTML文档，而不需要大量的HTML乱码？

1 个答案:

答案 0 :(得分：3)

这里面临的挑战是PDF是一种布局语言，而不是语义语言，而HTML则恰恰相反。

这意味着当转换为HTML并希望对最终用户保持可读性时，您必须强制HTML通过定位单个单词（有时是字母）来进行布局，并且语义结构通常会出现乱码或丢失 - 因此胡言乱语。

您可以通过打开几乎任何代表文本文档的PDF文件并尝试（通过眼睛）在文本中查找单词或段落来了解问题。

将此与HTML文档进行比较，该文档通常可以直接从源文档中读取。