解析在mediawiki转储中包含特定文件类型的URL

时间:2014-05-18 17:20:26

标签: mediawiki large-files

我有一个很大的.xml文件(大约500mb),这是一个基于mediawiki的网站转储。

我的目标是找到包含图片文件扩展名的所有网址链接。然后按二级域分组链接,导出结果只包含上述顺序的链接。

示例:有许多链接以domain.com/.png,host.com/.png和image.com/*.png开头。将它们分组到单独的文件中,并按特定的二级域划分它的链接 - 这是最终结果。

1 个答案:

答案 0 :(得分:0)

所以你想要解析wiki文本中的链接。编写MediaWiki parser很痛苦,因此您应该使用现有的解析器。

最简单的方法(最简单但不容易)可能是import your dump进入MediaWiki安装并重建一些所需的表ID,然后导出externallinks表。