如果我下载了维基百科XML转储,有没有办法从XML文件中删除所有内部链接?
由于
答案 0 :(得分:0)
维基百科数据库转储及其使用信息位于:Wikipedia:Database download。你应该这样做,而不是写一个脚本来刮取维基百科。
答案 1 :(得分:0)
如果要将它们导入到本地Wiki中,您可以做的一件事就是导入所需的所有文件,然后使用机器人(例如。pywikipediabot易于使用)来摆脱所有内部链接。
答案 2 :(得分:0)
我会尝试使用XSLT将XML文件转换为另一个XML文件。
答案 3 :(得分:-1)
您可以在自己喜欢的文本编辑器中进行搜索和替换,无需替换[[和]]。