我做了一个研究, 我发现的唯一工具是CommandLine可执行文件pdfbox-app-2.x.x.jar文件中带有'-html'参数的ExtractText方法: https://pdfbox.apache.org/2.0/commandline.html#extracttext 但它对我不起作用,因为它丢失了所有图像,生成的HTML文件只包含文本。所以它对我不起作用,而且我还需要jar文件,我可以在我的Java应用程序中运行,而不仅仅是CommandLine。
这里使用带有'-html'参数的ExtractText方法生成HTML:
看起来PDFBox无法做到,rihgt?
是否有其他库可以将PDF转换为HTML,因此它看起来与所有样式和图像,表格,复选框等完全一样。?