有没有办法在不刮取的情况下提取维基数据?

时间:2018-03-15 15:08:24

标签: wikipedia dbpedia wiktionary

我知道维基百科有DBPedia,但维基词典中是否存在类似内容?我希望将https://en.wiktionary.org/wiki/Category:en:Occupations之类的内容转换为JSON或类似格式。

2 个答案:

答案 0 :(得分:1)

如果要获取与某个类别有关的所有条目,则可以使用MediaWiki API。尝试以下查询:

https://en.wiktionary.org/w/api.php?action=query&list=categorymembers&cmtitle=Category:en:Occupations&cmprop=title

但是,如果您要获取JSON,XML或任何其他结构化数据格式的文字数据,情况将会变得更糟。维基词典页面的内容以人类易于阅读的格式表示,因此MediaWiki API不提供任何方式来获取单词的定义/发音/同义词。不过,有一些API,例如WordnikLingua Robot,可以从Wiktionary提取数据并以JSON提供数据。

答案 1 :(得分:0)

另一种可行的方法是从wikimedia data dump wiktionary类别SQL dump 加载到mysql中, enwiktionary-20190901-category.sql.gz

然后使用https://en.wiktionary.org/api/rest_v1/检索(并解析!)所需信息的html。

祝你好运!