标签: python xml xml-parsing wikipedia
在我的研究项目中,我需要从Wikipedia转储中提取并行文档。换句话说,我已经下载了英语和意大利语Wikipedia转储。现在,我想解析它们以及英文转储中的每篇文章,在意大利转储中找到它的翻译(应该由Interlanguage链接完成),然后将它们存储在同一个文件中,以便之后进行一些跨语言的文本处理。
我搜索了一下这个,但我找不到任何代码用于此目的。但是,既然我已经看过许多论文,其中作者也做了同样的事情,我认为在从头开始发明轮子之前,首先可能值得先问一下。
任何想法都表示赞赏。
谢谢。
答案 0 :(得分:1)
使用此Wikipedia api,JSFiddle
实施例: action=query&query=langlinks
回复给出了相应的意大利文章。