我已经解析了一个网页,其网址基本上是强制下载页面上的PDF的页面。使用Jsoup中的ignorecontenttype()方法,我设法显示了一大堆文本,但它包含黑色椭圆形中的问号,如下所示: 这是我的代码:
org.jsoup.nodes.Document document1 = null;
Connection.Response downloadPopUp = Jsoup.connect("https://www.capitaliq.com/ciqdotnet/login.aspx?redirect=%2fCIQDotNet%2fFilings%2fDocumentRedirector.axd%3fversionId%3d" + ID + "%26type%3dpdf%26forcedownload%3dtrue/login.php").userAgent("Chrome/44.0.2403.125")
.method(Connection.Method.GET)
.timeout(1000000)
.ignoreContentType(true)
.execute();
document1 = Jsoup.connect("https://www.capitaliq.com/ciqdotnet/login.aspx?redirect=%2fCIQDotNet%2fFilings%2fDocumentRedirector.axd%3fversionId%3d" + ID + "%26type%3dpdf%26forcedownload%3dtrue").userAgent("Chrome/44.0.2403.125")
.data("cookieexists", "false")
.data("myLogin$myUsername", "MyEmail")
.data("myLogin$myPassword", "MyPassword")
.data("myLogin$myLoginButton.x", "22")
.data("myLogin$myLoginButton.y", "8")
.data("__VIEWSTATE", viewState)
.data("__EVENTVALIDATION", eventValidation)
.data("myLogin$myEnableAutoLogin", "on")
.timeout(1000000)
.cookies(downloadPopUp.cookies())
<html>
<head>
</head>
<body>
%PDF-1.3% 10 obj&lt;&gt; endobj 2 0 obj&lt;&gt; endobj 3 0 obj&lt;&gt;streamx ctem 66mWR mgǶmWl vŶ m ģݧ{}ö\sJƶ1['zfD¶; 9 F HL$0"ba!b���!��sw075s"�RQT�����/�?"D������t47�!��>��l�6N��cE%��� @dbn ��א�'��U!� ��� �̍��͍6�j"[�o�?"#[c�Bsd�vBБȀ��
d p3 â# 8X ;:~ Ll s dKdncd l t } 9〜KXM휈ʋNfNv4f| K9o,��N�6�DN�o�-�!�����������7������pv4�1�/���VG�o�o���_q������Y��K��_R�郹�#�ʄ���ۦ�ӷmSs�D��Ė�������v��s8�+AT�� ��ƶ6V�D�FY[��Q�Ϫ�@��V�������������k�_#K�9�����C�9[Y�X7��/���������������"������#H:|w�����
BN Q
有谁知道如何使这个HTML / PDF组合可读?
答案 0 :(得分:0)
将'Content-Type:application / pdf'放在html标题中(在发送任何数据之前)。 根本没有HTML标签。