我正在解析一篇Wikia文章并尝试从右侧突出显示块中获取数据,我已经使用以下URL获取了左侧数据
http://hetalia.wikia.com/api.php?action=parse&prop=revisions&prop=sections&page=America&format=json
但是不知道关于正确的参考。参数是什么?
原始网址为
http://hetalia.wikia.com/wiki/America
答案 0 :(得分:0)
我相信从信息框获取信息的唯一方法是获取页面源,可以使用此查询来完成
http://hetalia.wikia.com/api.php?action=query&prop=revisions&rvprop=content&titles=America&format=json
然后解析文本以获取信息,因为该框的源是这种格式
{{Character
|name = America
|jname = アメリカ
|image = America0.png
|country = [[wikipedia:United States|The United States of America]]
|human = Alfred F.Jones (アルフレッド・F・ジョーンズ, ''Arufureddo F. Joonzu'')
|age = 19
...
|japanese = [[Katsuyuki Konishi]], Ryoko Shimizu (Young America, drama CD "Prologue"), [[Ai Iwamura]] (Young America, anime), [[Axis Powers Hetalia: The CD|Osamu Ikeda]] (''Flower Of Iris'')
|english = [[Eric Vale]], Stephanie Young (young America)}}
您可以使用Regex从文本中提取数据,例如使用\|age\s*=\s*(\d*)
来获取年龄属性。