如何将pdf转换为干净格式的HTML?

时间:2012-09-10 20:21:34

标签: html pdf

是否有一个网站或一个软件可以将PDF干净地转换为HTML文档,而不需要大量的HTML乱码?

1 个答案:

答案 0 :(得分:3)

这里面临的挑战是PDF是一种布局语言,而不是语义语言,而HTML则恰恰相反。

这意味着当转换为HTML并希望对最终用户保持可读性时,您必须强制HTML通过定位单个单词(有时是字母)来进行布局,并且语义结构通常会出现乱码或丢失 - 因此胡言乱语。

您可以通过打开几乎任何代表文本文档的PDF文件并尝试(通过眼睛)在文本中查找单词或段落来了解问题。

将此与HTML文档进行比较,该文档通常可以直接从源文档中读取。