我想使用java应用程序将pdf文件转换为html文件。 PDF文件包含一些图像,文本等。有没有人知道一个好的Java API? (请不要建议Aspose)。 我试过Apache PDFBox但不满意
答案 0 :(得分:7)
CSSBox Pdf2Dom是一个Java库,允许(除其他外)将PDF转换为HTML。该发行版甚至包含基于此库的PDFToHTML命令行工具,因此您可以检查结果是否符合您的需求。但是,如上所述,将PDF转换为HTML总是很棘手。结果取决于特定PDF文件的复杂性和结构,因此不同的工具可能适用于不同的PDF文件。
答案 1 :(得分:1)
结帐
JPedal,它可以很好地处理嵌入字体但不是免费的。
IcePDF,它是免费的,但它只能提取文本/图像或将PDF渲染为图像。
public class QHyperArticleHtmlBuilder extends QHtmlBuilder {
QStyle anchorStyle = createStyle("anchorStyle", a);
QStyle sectionStyle = createStyle("sectionStyle", div);
QStyle subsectionStyle = createStyle("subsectionStyle", div);
...
public String buildSubSectionHeading(String anchorName, String text) {
return buildAnchorHeading(subsectionStyle, anchorName, text);
}
protected String buildAnchorHeading(QStyle divStyle,
String anchorName, String text) {
QMutableElement element = create(p);
element.add(br);
element.add(create(a, anchorStyle, name.create(anchorName)))
.add(create(div, divStyle, text));
return element.buildHtml();
}
public String buildLink(String url, String label) {
QMutableElement element = create(a, anchorStyle, href.create(url));
element.add(create(span, underlineStyle))
.add(create(span, linkStyle, label));
return element.buildHtml();
}
}
pre.javaStyle {
font-family: courier new, courier, mono;
background-color: #fbfbfb;
font-size: 11pt;
width: 800px;
border: dashed 1px;
border-color: lightgray;
padding-left: 4px;
}
资源here
答案 2 :(得分:0)
您可以尝试使用Print2Flash:www.print2flash.com它不仅可以从Java转换为HTML,还可以转换为其他类型的文档:Office文档,AutoCAD图纸等。它解决了我们公司的所有文档发布需求网站。
答案 3 :(得分:0)
尝试使用名为jPDFWeb的Java库,它保留原始PDF中的字体和图像分辨率。您可以上传自己的PDF并尝试现场演示。
答案 4 :(得分:-1)
也许你可以使用这个API:https://market.mashape.com/netservice/convert-pdf-to-html 适用于java,node,php等......