是否有一个网站或一个软件可以将PDF干净地转换为HTML文档,而不需要大量的HTML乱码?
答案 0 :(得分:3)
这里面临的挑战是PDF是一种布局语言,而不是语义语言,而HTML则恰恰相反。
这意味着当转换为HTML并希望对最终用户保持可读性时,您必须强制HTML通过定位单个单词(有时是字母)来进行布局,并且语义结构通常会出现乱码或丢失 - 因此胡言乱语。
您可以通过打开几乎任何代表文本文档的PDF文件并尝试(通过眼睛)在文本中查找单词或段落来了解问题。
将此与HTML文档进行比较,该文档通常可以直接从源文档中读取。