如何处理Wikipedia转储中的重定向?

时间:2018-09-14 23:42:58

标签: mysql sql wikipedia

我已成功使用this guide将enwiki-latest-pages-articles-multistream.XML页面导入MySQL。

当我查找页面文本(过程描述为here)时,通常为#REDIRECT [[some_page_name]]。我知道遵循此重定向的唯一方法是在所有页面标题中搜索some_page_name。这不仅很耗时,而且有时在精确相同标题名称下有多篇文章!

我正在考虑仅从数据库中删除所有重定向页面。

但是在我这样做之前,是否有更好的方法来处理这些重定向?

1 个答案:

答案 0 :(得分:1)

据我了解,您想确定重定向的目标是什么。对?。如果是,则可以使用以下查询获取它:

select rd_title from redirect
inner join page
on page_id = rd_from
where page_title like "some_page_name"

rd_title是重定向的目标页面。

如果我错了,请纠正我。