标签: mediawiki
我想要获取的内部链接结构,并且还将页面排名应用于Wikimedia格式的Wiki。我有一个非常大的html文件转储,它是history.xml文件。这包括[[]]中的所有内部链接,还包括所有页面的每个修订版本。我想知道是否有一种方法可以提取内部链接结构。我知道Wikipedia转储在一个单独的文件中附带此文件,但我只有history.xml
答案 0 :(得分:0)
转储Wiki的pagelinks table(或将xml转储导入的新Wiki)。