如何编写将 PDF 文件转换为 HTML 的Java代码。如果我们在 PDF 文档中有表格,那么同一个表格将会也可以在 HTML 文件中与其他内容相同,如颜色,链接等。
答案 0 :(得分:2)
这是一个两步的过程,因为没有什么可以读懂你的想法:
只有您可以决定标记应该是什么以及应该显示哪些内容。没有标准,没有软件可以读懂你的想法。
为什么不能将PDF流式传输到浏览器并以这种方式显示?不需要HTML。
答案 1 :(得分:2)
我正在做这件事,基于Apache PDFBox(Java)。请参阅https://bitbucket.org/petermr/pdf2svg以转换为SVG,并https://bitbucket.org/petermr/svg2xml-dev转换为XML。我将在下周处理表格。
该过程至少包括两个步骤,涉及:
然后,我们必须查看该表是否有常规列,并查看这些列是否具有某些意义。