我有网址:http://pasca.undiksha.ac.id/e-journal/index.php/jurnal_bahasa/article/view/500(它不是直接访问pdf,而是指向pdf文件。我想解析这个pdf文件并获取pdf文本。我尝试使用jsoup:`
String url = "http://pasca.undiksha.ac.id/e-journal/index.php/jurnal_ep/article/download/380/172";
File in = new File(url);
Document doc = Jsoup.parse(in, "UTF-8");
System.out.println(doc.toString());`
输出是:
java.io.FileNotFoundException: http:\pasca.undiksha.ac.id\e-journal\index.php\jurnal_ep\article\download\380\172 (The filename, directory name, or volume label syntax is incorrect)
at java.io.FileInputStream.open(Native Method)
at java.io.FileInputStream.<init>(FileInputStream.java:138)
at org.jsoup.helper.DataUtil.load(DataUtil.java:36)
at org.jsoup.Jsoup.parse(Jsoup.java:103)
有任何想法吗?谢谢你
答案 0 :(得分:3)
使用URLConnection连接pdf 阅读内容使用:
URL url =
new URL( "http://pasca.undiksha.ac.id/e-journal/index.php/jurnal_bahasa/article/view/500" );
URLConnection connection = url.openConnection();
input = connection.getInputStream();
Document doc = Jsoup.parse(in, "UTF-8");
System.out.println(doc.toString());
答案 1 :(得分:0)
您不能将File
与file://
以外的网址一起使用,当然这将是一个错误。
使用commons-http-client访问网络上的文件。