我正在使用Jsoup解析一些HTML以获取一些PDF网址。
PDF显示在<embed>
标记中,如:
<html>
<body marginwidth="0" marginheight="0" style="background-color: rgb(38,38,38)">
<embed width="100%" height="100%" name="plugin" src="http://www.domain.com/apdf_id.pdf?tp=&arnumber=1253069&isnumber=28038" type="application/pdf">
</body>
</html>
如何从该页面获取PDF URL,以便我可以将其下载到本地计算机?
答案 0 :(得分:1)
只需选择<embed type="application/pdf">
元素并将其src
属性作为绝对网址。
String pdfURL = document.select("embed[type=application/pdf").first().absUrl("src");
您也可以专门选择<embed name="plugin">
。
String pdfURL = document.select("embed[name=plugin").first().absUrl("src");
然后,您可以使用java.net.URL
以InputStream
的风格获取它。
InputStream input = new URL(pdfURL).openStream();
最后,只需按常规方式将其写入OutputStream
FileOutputStream
。