如何使用java从e​​mbed type = application / pdf获取原始pdf

时间:2012-12-20 12:00:31

标签: html pdf download embed jsoup

我正在使用Jsoup解析一些HTML以获取一些PDF网址。

PDF显示在<embed>标记中,如:

<html>
<body marginwidth="0" marginheight="0" style="background-color: rgb(38,38,38)">
<embed width="100%" height="100%" name="plugin" src="http://www.domain.com/apdf_id.pdf?tp=&amp;arnumber=1253069&amp;isnumber=28038" type="application/pdf">
</body>
</html>

如何从该页面获取PDF URL,以便我可以将其下载到本地计算机?

1 个答案:

答案 0 :(得分:1)

只需选择<embed type="application/pdf">元素并将其src属性作为绝对网址。

String pdfURL = document.select("embed[type=application/pdf").first().absUrl("src");

您也可以专门选择<embed name="plugin">

String pdfURL = document.select("embed[name=plugin").first().absUrl("src");

然后,您可以使用java.net.URLInputStream的风格获取它。

InputStream input = new URL(pdfURL).openStream();

最后,只需按常规方式将其写入OutputStream FileOutputStream

另见: