用于以编程方式将HTML页面转换为Image / PDF的最佳Java lib

时间:2012-04-24 03:26:43

标签: java flying-saucer html-to-pdf html-to-jpeg

我正在寻找最好的Java库,我可以在URL中传递它,并让它创建一个网页外观的图像,就像在浏览器中一样。我尝试了flyingsaucer,但似乎几乎每个网页都打破了它 - 它甚至不会渲染www.google.com或yahoo.com--我唯一能够呈现它的网站是www.w3c.org !

关于更好的工具使用,或者可能允许飞碟在xhtml中更宽松的想法是否接受?

3 个答案:

答案 0 :(得分:5)

飞碟在许多页面上失败,因为它只允许xhtml(参见手册)。

但你可以使用一些html lib来“清理”你的输入然后使用FS。

Webesite - > “清洁工” - >飞碟

一些好的和免费的库是:

  1. JSoup(个人推荐)
  2. HtmlCleaner
  3. JTidy(有时比需要更严格)
  4. Jericho HTML

答案 1 :(得分:0)

可能是你可以试试itext.jar

http://itextpdf.com/download.php

下载

答案 2 :(得分:0)

关于html抓取:

使用java库中的URL。有很多关于此的例子。

关于PDF转换:

如果您使用的是Spring框架,则可以通过iText api使用AbstractPdfView类。 this是我最喜欢的例子。我想你可以很容易地利用它。

关于图像转换:

我推荐这个:http://code.google.com/p/java-html2image/

总:

通过URL读取HTML→通过iText或java-html2image转换它。我强烈建议你自己做,不要把它留给某个图书馆。