应用错误收集

时间：2012-10-30 07:24:52

标签： java open-source pdfbox

我需要Java库来执行以下任务1）将Pdf页面转换为图像2）从PDF页面中提取html文本，并在页面上有位置3）从PDF页面中提取图像

我已经尝试了

任何人都可以建议更好的解决方案。

答案 0 :(得分：0)

你试过JOD Converter吗？它是自启动的Open Office Server的Java API。

要查看它是否转换为您想要的格式，只需安装Open Office，打开文件，然后尝试“另存为”您需要的格式，以查看是否支持。

答案 1 :(得分：0)

我已按照以下步骤解决Ubuntu Enviornment中的问题

步骤1）使用pdftohtml库将pdf转换为html

步骤2）使用Jsoup从步骤1）中的html中提取带样式和位置的文本

步骤3）使用CutyCapt生成HTML快照（如果需要）

我们也可以使用 pdftoppm命令直接从pdf中提取图像

答案 2 :(得分：-2)

你可以用PDFBox做所有这些事情。但是为了获得这个位置，没有API。下载最新的PDFBox。请访问以下链接以查找解决方案。

请查看this link。在那里你可以看到getTextPos（）函数。 getTextPos（）。getXPosition（），getTextPos（）。getYPosition（）将为您提供X和Y坐标。