从Wikipedia XML文件中删除内部链接的过程?

时间:2009-03-31 22:55:31

标签: mediawiki wikipedia populate

如果我下载了维基百科XML转储,有没有办法从XML文件中删除所有内部链接?

由于

4 个答案:

答案 0 :(得分:0)

维基百科数据库转储及其使用信息位于:Wikipedia:Database download。你应该这样做,而不是写一个脚本来刮取维基百科。

答案 1 :(得分:0)

如果要将它们导入到本地Wiki中,您可以做的一件事就是导入所需的所有文件,然后使用机器人(例如。pywikipediabot易于使用)来摆脱所有内部链接。

答案 2 :(得分:0)

我会尝试使用XSLT将XML文件转换为另一个XML文件。

答案 3 :(得分:-1)

您可以在自己喜欢的文本编辑器中进行搜索和替换,无需替换[[和]]。