应用错误收集

从Wikipedia转储中提取并行文本

时间：2016-03-05 18:39:26

标签： python xml xml-parsing wikipedia

在我的研究项目中，我需要从Wikipedia转储中提取并行文档。换句话说，我已经下载了英语和意大利语Wikipedia转储。现在，我想解析它们以及英文转储中的每篇文章，在意大利转储中找到它的翻译（应该由Interlanguage链接完成），然后将它们存储在同一个文件中，以便之后进行一些跨语言的文本处理。

我搜索了一下这个，但我找不到任何代码用于此目的。但是，既然我已经看过许多论文，其中作者也做了同样的事情，我认为在从头开始发明轮子之前，首先可能值得先问一下。

任何想法都表示赞赏。

谢谢。

1 个答案:

答案 0 :(得分：1)

使用此Wikipedia api，JSFiddle

实施例： action=query&query=langlinks

回复给出了相应的意大利文章。

从Wikipedia XML Dump中提取坐标+ Zoomlevel
如何从维基百科中提取统计数据？
从维基百科中提取文章文本
jsoup - 从维基百科文章中提取文本
使用Python从Wikipedia html中提取文本
从维基百科文章中提取数据
从Wikipedia转储中提取并行文本
从脱机转储中提取属于某个类别的维基百科文章
Wikipedia API，提取包含链接文本的文本
从文本中提取维基百科实体

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？