在PDF文件上制作问号

时间:2015-08-12 05:45:35

标签: java html pdf jsoup converter

我已经解析了一个网页,其网址基本上是强制下载页面上的PDF的页面。使用Jsoup中的ignorecontenttype()方法,我设法显示了一大堆文本,但它包含黑色椭圆形中的问号,如下所示: 这是我的代码:

org.jsoup.nodes.Document document1 = null;
Connection.Response downloadPopUp = Jsoup.connect("https://www.capitaliq.com/ciqdotnet/login.aspx?redirect=%2fCIQDotNet%2fFilings%2fDocumentRedirector.axd%3fversionId%3d" + ID + "%26type%3dpdf%26forcedownload%3dtrue/login.php").userAgent("Chrome/44.0.2403.125")
     .method(Connection.Method.GET)
     .timeout(1000000)
     .ignoreContentType(true)
     .execute();
document1 = Jsoup.connect("https://www.capitaliq.com/ciqdotnet/login.aspx?redirect=%2fCIQDotNet%2fFilings%2fDocumentRedirector.axd%3fversionId%3d" + ID + "%26type%3dpdf%26forcedownload%3dtrue").userAgent("Chrome/44.0.2403.125")
     .data("cookieexists", "false")
     .data("myLogin$myUsername", "MyEmail")
     .data("myLogin$myPassword", "MyPassword")
     .data("myLogin$myLoginButton.x", "22")
     .data("myLogin$myLoginButton.y", "8")
     .data("__VIEWSTATE", viewState)
     .data("__EVENTVALIDATION", eventValidation)
     .data("myLogin$myEnableAutoLogin", "on")
     .timeout(1000000)
     .cookies(downloadPopUp.cookies())

<html>
<head>
</head>
<body>

%PDF-1.3% 10 obj&lt;&gt; endobj 2 0 obj&lt;&gt; endobj 3 0 obj&lt;&gt;streamx ctem 66mWR mgǶmWl vŶ m ģݧ{}ö\sJƶ1['zfD¶; 9 F HL$0"ba!b���!��sw075s"�RQT�����/�?"D������t47�!��&gt;��l�6N��cE%��� @dbn ��א�'��U!� ��� �̍��͍6�j"[�o�?"#[c�Bsd�vBБȀ��d p3 â# 8X ;:~ Ll s dKdncd l t } 9〜KXM휈ʋNfNv4f| K9o,��N�6�DN�o�-�!�����������7������pv4�1�/���VG�o�o���_q������Y��K��_R�郹�#�ʄ���ۦ�ӷmSs�D��Ė�������v��s8�+AT�� ��ƶ6V�D�FY[��Q�Ϫ�@��V�������������k�_#K�9�����C�9[Y�X7��/���������������"������#H:|w����� BN Q

有谁知道如何使这个HTML / PDF组合可读?

1 个答案:

答案 0 :(得分:0)

将'Content-Type:application / pdf'放在html标题中(在发送任何数据之前)。 根本没有HTML标签。