维基百科多语言解析器

时间:2019-12-26 17:38:24

标签: javascript parsing wikipedia

我在jQuery Terminal(404 error page中的命令Wikipedia)的JavaScript中有一个简单的Wikipedia解析器(不是创建AST的实际解析器,只是创建了不同语法的一堆替换)。

代码使用API​​从Wikipedia中获取文章,并在终端中显示文章。我的问题是我不知道如何解析其他语言。该解析器是为英语创建的,但是我刚刚添加了-l选项,并且其工作原理相同。除非由于语言而导致输出问题,例如在英语Wikipedia上有Category,在波兰语上是Kategoria。 您是否知道找出任何一种语言的元名称的任何方法?其他关键字是FilePlik。并且有许多种语言,是否为其他Wiki创建关键字列表是找出这些名称的唯一方法?

有帮助文章Help:Category,但波兰语翻译不是Kategoria,而是Kategorie(复数),因此我不能仅使用帮助页面来了解翻译。也有不同的模板(我不确定该怎么做)。为每种语言编写不同的解析器是正确解析Wikipedia文章的唯一方法吗?

1 个答案:

答案 0 :(得分:1)

如果您只对名称空间的本地化版本感兴趣,则可以通过API获得这些名称空间,例如https://pl.wikipedia.org/w/api.php?action=query&format=jsonfm&meta=siteinfo&siprop=namespaces将为您提供波兰语命名空间的列表(请注意,不同的维基百科中命名空间的集合不一定相同)。

通常,大多数关键字翻译都可以在MessagesPl.php中找到,用于MediaWiki核心,并找到各种别名文件进行扩展(例如,Gadgets.namespaces.phpGadgets.alias.php用于Gadgets扩展),但考虑到较大使用的扩展数量,可能没有多大帮助。