Java程序将PDF转换为HTML?

时间:2013-03-10 14:35:37

标签: java html pdf

如何编写将 PDF 文件转换为 HTML 的Java代码。如果我们在 PDF 文档中有表格,那么同一个表格将会也可以在 HTML 文件中与其他内容相同,如颜色,链接等。

2 个答案:

答案 0 :(得分:2)

这是一个两步的过程,因为没有什么可以读懂你的想法:

  1. 将PDF加载到内存中,并使用iText等库来解析内容。
  2. 将内容添加到标记并输出HTML。
  3. 只有您可以决定标记应该是什么以及应该显示哪些内容。没有标准,没有软件可以读懂你的想法。

    为什么不能将PDF流式传输到浏览器并以这种方式显示?不需要HTML。

答案 1 :(得分:2)

我正在做这件事,基于Apache PDFBox(Java)。请参阅https://bitbucket.org/petermr/pdf2svg以转换为SVG,并https://bitbucket.org/petermr/svg2xml-dev转换为XML。我将在下周处理表格。

该过程至少包括两个步骤,涉及:

  • 将PDF转换为SVG字符,包括字体,大小,x / y等。(PDFBox会这样做)
  • 使用坐标查找页面的矩形区域。
  • 寻找文本启发式方法,例如“table 1”
  • 尝试将区域解释为矩形表的单元格

然后,我们必须查看该表是否有常规列,并查看这些列是否具有某些意义。