首选开源实施。
答案 0 :(得分:2)
显然,这不是一件容易的事,PDF格式比HTML更丰富(另外你必须提取图像并链接它们等)。
简单的文本提取更简单(虽然不是微不足道的......)
我在你的问题的侧边栏中看到一个类似的问题:Converting PDF to HTML with Python指向一个库(poppler,显然是用C ++编写的,也许可以用JNI / JNA访问)和一个相关的问题,它提供了更多答案。
答案 1 :(得分:1)
答案 2 :(得分:1)
尝试使用apache基础中的PDFBox。