我试图创建一个简单的项目,用户输入一个URL,然后获取引用的相关信息(作者,标题等)。问题是Java URL库似乎无法获取整个页面源。例如,我将使用链接https://www.cia.gov/library/publications/the-world-factbook/geos/jo.html作为参考。以下是我使用的代码:
import java.net.*;
import java.io.*;
import java.util.ArrayList;
public class URLTester
{
private static URL url;
public URLTester(URL u)
{
url = u;
}
public static ArrayList <String> getContents() throws Exception
{
BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
String inputLine;
ArrayList <String> arr = new ArrayList<String>();
while ((inputLine = in.readLine()) != null)
{
arr.add(inputLine);
}
in.close();
return arr;
}
public static void main (String args[]) throws Exception
{
url = new URL("https://www.cia.gov/library/publications/the-world-factbook/geos/jo.html");
ArrayList<String> contents = getContents();
for(int i = 0; i < contents.size(); i++)
{
System.out.println((contents.get(i)));
}
}
}
这会获取目标页面源的缩短版本。当我按下查看页面来源&#39;在网站上,出现了更加扩展的版本,包括日期和文章作者等信息。我无法在此处粘贴来源,因为它超出了字符数限制。如何获取整个页面源代码而不是缩短版本?