我正在寻找最好的Java库,我可以在URL中传递它,并让它创建一个网页外观的图像,就像在浏览器中一样。我尝试了flyingsaucer,但似乎几乎每个网页都打破了它 - 它甚至不会渲染www.google.com或yahoo.com--我唯一能够呈现它的网站是www.w3c.org !
关于更好的工具使用,或者可能允许飞碟在xhtml中更宽松的想法是否接受?
答案 0 :(得分:5)
飞碟在许多页面上失败,因为它只允许xhtml(参见手册)。
但你可以使用一些html lib来“清理”你的输入然后使用FS。
Webesite - > “清洁工” - >飞碟
一些好的和免费的库是:
答案 1 :(得分:0)
可能是你可以试试itext.jar
下载答案 2 :(得分:0)
关于html抓取:
使用java库中的URL。有很多关于此的例子。
关于PDF转换:
如果您使用的是Spring框架,则可以通过iText api使用AbstractPdfView类。 this是我最喜欢的例子。我想你可以很容易地利用它。
关于图像转换:
我推荐这个:http://code.google.com/p/java-html2image/
总:
通过URL读取HTML→通过iText或java-html2image转换它。我强烈建议你自己做,不要把它留给某个图书馆。