我已经成功地使用维基百科页面链接SQL转储来获取维基百科页面之间的特定修订时间的超链接。
然而,存在这样的链接的多个实例存在的情况,例如,相同的https://en.wikipedia.org/wiki/Wikipedia页面和https://en.wikipedia.org/wiki/Wikimedia_Foundation。我很想找到特定版本的页面对之间的链接数。
理想的解决方案将涉及除pagelinks之外的转储文件(我不知道)或使用MediaWiki API。
答案 0 :(得分:1)
我认为你最不好的选择是解析Parsoid输出;例如转到https://en.wikipedia.org/api/rest_v1/page/html/Wikipedia并计算与选择器a[rel="mw:WikiLink"][href="./Wikimedia_Foundation"]
匹配的链接。