我需要Java库来执行以下任务1)将Pdf页面转换为图像2)从PDF页面中提取html文本,并在页面上有位置3)从PDF页面中提取图像
我已经尝试了
任何人都可以建议更好的解决方案。
答案 0 :(得分:0)
你试过JOD Converter吗?它是自启动的Open Office Server的Java API。
要查看它是否转换为您想要的格式,只需安装Open Office,打开文件,然后尝试“另存为”您需要的格式,以查看是否支持。
答案 1 :(得分:0)
我已按照以下步骤解决Ubuntu Enviornment中的问题
步骤1)使用pdftohtml库将pdf转换为html
步骤2)使用Jsoup从步骤1)中的html中提取带样式和位置的文本
步骤3)使用CutyCapt生成HTML快照(如果需要)
我们也可以使用 pdftoppm命令直接从pdf中提取图像
答案 2 :(得分:-2)
你可以用PDFBox做所有这些事情。但是为了获得这个位置,没有API。下载最新的PDFBox。请访问以下链接以查找解决方案。
请查看this link。在那里你可以看到getTextPos()函数。 getTextPos()。getXPosition(),getTextPos()。getYPosition()将为您提供X和Y坐标。