免费的开源Java库转换PDF -Image,PDF - HTML,PDF - 提取图像和文本

时间:2012-10-30 07:24:52

标签: java open-source pdfbox

我需要Java库来执行以下任务1)将Pdf页面转换为图像2)从PDF页面中提取html文本,并在页面上有位置3)从PDF页面中提取图像

我已经尝试了

  1. PDFBox - 失败并显示错误 - 不支持/禁用操作:BDC和EMC
  2. icePDF - 它适用于任务1)和3)但是再次付费。
  3. PDFRenderer - 失败
  4. BFO - 其付费图书馆但能够执行任务1)和3)
  5. 任何人都可以建议更好的解决方案。

3 个答案:

答案 0 :(得分:0)

你试过JOD Converter吗?它是自启动的Open Office Server的Java API。

要查看它是否转换为您想要的格式,只需安装Open Office,打开文件,然后尝试“另存为”您需要的格式,以查看是否支持。

答案 1 :(得分:0)

我已按照以下步骤解决Ubuntu Enviornment中的问题

步骤1)使用pdftohtml库将pdf转换为html

步骤2)使用Jsoup从步骤1)中的html中提取带样式和位置的文本

步骤3)使用CutyCapt生成HTML快照(如果需要)

我们也可以使用 pdftoppm命令直接从pdf中提取图像

答案 2 :(得分:-2)

你可以用PDFBox做所有这些事情。但是为了获得这个位置,没有API。下载最新的PDFBox。请访问以下链接以查找解决方案。

  1. Convert Pdf pages to Image
  2. Extract images from PDF pages
  3. 从PDF页面中提取html文本,页面上的位置略有不同。使用API​​,您将无法获得位置信息。但您可以使用PDFBox获取所有位置信息。
  4. 请查看this link。在那里你可以看到getTextPos()函数。 getTextPos()。getXPosition(),getTextPos()。getYPosition()将为您提供X和Y坐标。