有没有用于将文档从pdf转换为html的java库?

时间:2008-12-11 10:49:49

标签: java html pdf

首选开源实施。

3 个答案:

答案 0 :(得分:2)

显然,这不是一件容易的事,PDF格式比HTML更丰富(另外你必须提取图像并链接它们等)。
简单的文本提取更简单(虽然不是微不足道的......) 我在你的问题的侧边栏中看到一个类似的问题:Converting PDF to HTML with Python指向一个库(poppler,显然是用C ++编写的,也许可以用JNI / JNA访问)和一个相关的问题,它提供了更多答案。

答案 1 :(得分:1)

只有我知道的人必须得到报酬。

BFO
JPedal

答案 2 :(得分:1)

尝试使用apache基础中的PDFBox