维基百科解析器

时间:2012-07-12 08:19:01

标签: java xml-parsing wikipedia

我想通过解析器阅读维基百科页面,例如JWPL。 我能够做到,但我的问题是:

我想计算标题和章节之间的字符数以及链接数。

使用JWPL,我可以从列表中获取每个链接中的部分列表,但我无法统计字符。

总的来说,我的目标是阅读维基百科页面,将其数据模型转换为我的数据模型,并提供包含我的数据模型的另一个文件。

我的数据模型是一个文件,其中包含:部分名称,数字“部分与下一个链接或其他部分之间的字符数。

感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

有一种更好的方法,就是使用维基百科中的当前可用服务。您可以使用一组GET请求与它进行交互 阅读维基百科的元数据页面 http://en.wikipedia.org/wiki/Wikipedia:Metadata

mediawiki还解释了这种互动 http://www.mediawiki.org/wiki/API:Main_page

祝你好运