阅读维基百科的pageviews.gz文件

时间:2018-04-21 14:07:42

标签: powershell wikipedia

我写了一个脚本来从维基百科下载pagviewsXXXXX.gz文件。太好了。 当我解压缩文件时,内容难以辨认。任何人都知道如何阅读pagwviews.gz文件的内容?如果有一些api或任何关于如何做的想法?

提前致谢

1 个答案:

答案 0 :(得分:2)

我不知道你用什么软件解压缩.gz文件。我刚刚在64位Win10机器上使用了7-zip并取得了成功。完成后我发现https://dumps.wikimedia.org/other/pagecounts-raw/提供了对未压缩文件中行的描述。

该行

- (NSURLRequest *)requestBySerializingRequest:(NSURLRequest *)request withParameters:(nullable id)parameters error:(NSError *__autoreleasing  _Nullable * _Nullable)error {
    NSURLRequest *myRequest = [super requestBySerializingRequest:request withParameters:parameters error:error];

    NSData *jsonData = myRequest.HTTPBody;

    if (jsonData) {
        NSString *jsonString = [[NSString alloc] initWithData:jsonData encoding:NSUTF8StringEncoding];

        if (jsonString) {
            NSString *sanitizedString = [jsonString stringByReplacingOccurrencesOfString:@"\\/" withString:@"/" options: NSCaseInsensitiveSearch range: NSMakeRange(0, [jsonString length])];
            NSMutableURLRequest *mutableRequest = [myRequest mutableCopy];
            mutableRequest.HTTPBody = [sanitizedString dataUsingEncoding:NSUTF8StringEncoding];
            myRequest = mutableRequest;
        }
    }

    return myRequest;
}

来自de(德国)维基百科,页面'Stadio_Arena_Garibaldi _-Romeo_Anconetani',在gzip文件覆盖的长达一小时的时间内被引用过一次,服务器返回了11,820字节。

这条线看起来像胡言乱语。

> CREATE DATABASE TESTDB
> GO

然而,前两个字符表示它代表对维基百科的阿拉伯语版本的引用。 '%'项是非ascii字符。