我在维基百科pageviews分析中受到了挑战。对我来说,这是第一个拥有如此大量数据的项目,我有点迷茫。当我从链接下载文件并解压缩文件时,我可以看到它具有类似表的结构,其中的行如下所示:
1 | 2 |3|4
en.m The_Beatles_in_the_United_States 2 0
我很难找出每列中到底可以找到什么。我的猜测:
语言版本和其他信息(.m =移动电话?)
文章名称
最后两栏是我最关心的问题。最后一个只有“ 0”值,我不知道它代表什么。当时我以为第三个显示的是观看次数,但我不确定。
如果有人能帮助我理解每列中的确切内容或建议您阅读有关该主题的内容,我将不胜感激。谢谢!
答案 0 :(得分:4)
在花了更多时间之后,我终于找到了解决方案。如果将来有人遇到相同的问题,我会发布此信息。维基百科解释了可以在数据库中找到的内容。这些说明很难找到,但是您可以访问主题here和here。
基于此,您可以看到行具有以下结构:
每列的一些解释:
第1列:
请求的域名,缩写。 (...)Domain_code现在可以 也是移动域名和零域名的缩写,其中 将.m或.zero插入为域名的第二部分(只是 例如完整域名)。例如。 “ en.m.v”代表 “ en.m.wikiversity.org”。
第2列:
对于页面级文件,它包含未规范部分的标题 在/ wiki /之后-在请求网址中(例如:Main_Page Berlin)。对于 项目级文件,它是-。
第3列:
在相应的小时内浏览此页面的次数。
第4列:
由该页面中的请求引起的总响应大小 各个小时。如果我正确理解,响应大小为 因精度低而停产。这就是为什么只有0。的 页面计数和项目计数文件还包括总响应字节 大小在各自的聚合级别,但是从 pageviews和projectviews文件,因为它不太准确。
希望有人觉得它有用。
答案 1 :(得分:-1)
行格式:
- Wiki代码(subproject.project)
- 文章标题
- 每月总计(缺少数据时进行插值)
- 每小时计数
(来自pagecounts-ez,它是相同的数据集,只是过滤较少。)
显然是越野车;它使用Wiki代码域名的前两个部分,不适用于移动域(格式为<language>.m.<project>.org
)。