我从enwiki-latest-pagelinks.sql.gz
下载了dumps.wikimedia.org/enwiki/latest/
转储。
我开始将表导入到mysql数据库中:
mysql -D wp_dump -u root -p < enwiki-latest-pagelinks.sql
完全导入表似乎需要“永远”,它已经运行了两天,但是有进展。
现在,表中有超过7亿行,数据库表文件非常庞大,超过130G。
有人能告诉我当前pagelinks
表中有多少行(rougly)?对我(以及我假设其他人)的计划来说,这将是很棒的。我无法在维基百科上找到这些信息,也无法“咨询”谷歌。
答案 0 :(得分:0)
从https://stats.wikimedia.org/EN/TablesDatabaseLinks.htm来看,2010年的统计数字大约为3.3亿,此后统计数据尚未更新。根据转储文件的大小,它肯定会达到数十亿美元。
由于在停止统计数据之前,它每月以2%的速度增长,假设增长稳定,则将达到约400,000,000
答案 1 :(得分:0)
November 1st, 2019
页链接表转储包含1.2 Billion (1267944021)
行。