如何在Java中加载维基百科页面

时间:2015-06-23 13:48:30

标签: java web-crawler

我正在尝试每个美国城市的维基百科页面。由于我不知道实际的网址,因此我会搜索并加载第一个结果。执行此操作的URL签名是:

http://en.wikipedia.org/wiki/Special:Search?go=Go&search=New+York%2C+NY

然而,它没有得到任何回报,这是我的代码:

String curWikiURL = "http://en.wikipedia.org/wiki/Special:Search?go=Go&search="+URLEncoder.encode("New York, NY", "UTF-8");;
Scanner scanner = null;
URLConnection connection = null;
connection =  new URL(curWikiURL).openConnection();
scanner = new Scanner(connection.getInputStream());
scanner.useDelimiter("\\Z");
content = scanner.next();
Document doc = Jsoup.parse(content);

2 个答案:

答案 0 :(得分:1)

你不需要做所有的连接和东西JSoup库可以处理所有这些。检查下面

throwingMerger()

答案 1 :(得分:0)

使用如下:

https://en.wikipedia.org/w/api.php?action=query&titles=Main%20Page&prop=revisions&rvprop=content&format=jsonfm 

这是您使用MediaWiki API的方式。

点击此处了解详情 - https://www.mediawiki.org/wiki/API:Main_page