标签: html pdf
PDF非常适合查看,因为它看起来无处不在(好吧,不包括Firefox查看器的数学内容......)。然而,自动读取/提取其中的信息真的很难看。
PDF生成器是否可能“嵌入”每个PDF页面的HTML文件?
此HTML文件应该是不可见的,但反映了PDF文件的逻辑结构。因此,PDF解析器可以只提取HTML然后应用HTML解析器(这更简单)。