如何获取维基词典的Html源?

时间:2013-04-27 16:35:00

标签: java mediawiki wiki wiktionary

我正在与Wiki Api挣扎。如何使用API​​简单地获取页面html。我知道这是可能的,因为我以前做过,但我不记得怎么做了。

说我想要页面http://en.wiktionary.org/wiki/bicycle的页面源我该怎么做。我使用什么API。我不想在浏览器中查看?

2 个答案:

答案 0 :(得分:1)

使用Java和Jsoup,您可以执行此操作:

Document document = Jsoup
        .connect("http://en.wiktionary.org/wiki/bicycle")
        .get();

Element bodyContent = document.select("div#bodyContent").first();

System.out.println(bodyContent.html());

答案 1 :(得分:0)

您可以使用MediaWiki API的“解析”操作,假设您需要HTML:

http://en.wiktionary.org/w/api.php?action=parse&page=bicycle&prop=text&disablepp=1&format=json

如果您正在寻找原始的wikitext,您只需要一个不同的房产:

http://en.wiktionary.org/w/api.php?action=parse&page=bicycle&prop=wikitext&disablepp=1&format=json