我写了一个脚本来从维基百科下载pagviewsXXXXX.gz文件。太好了。 当我解压缩文件时,内容难以辨认。任何人都知道如何阅读pagwviews.gz文件的内容?如果有一些api或任何关于如何做的想法?
提前致谢
答案 0 :(得分:2)
我不知道你用什么软件解压缩.gz文件。我刚刚在64位Win10机器上使用了7-zip并取得了成功。完成后我发现https://dumps.wikimedia.org/other/pagecounts-raw/提供了对未压缩文件中行的描述。
该行
- (NSURLRequest *)requestBySerializingRequest:(NSURLRequest *)request withParameters:(nullable id)parameters error:(NSError *__autoreleasing _Nullable * _Nullable)error {
NSURLRequest *myRequest = [super requestBySerializingRequest:request withParameters:parameters error:error];
NSData *jsonData = myRequest.HTTPBody;
if (jsonData) {
NSString *jsonString = [[NSString alloc] initWithData:jsonData encoding:NSUTF8StringEncoding];
if (jsonString) {
NSString *sanitizedString = [jsonString stringByReplacingOccurrencesOfString:@"\\/" withString:@"/" options: NSCaseInsensitiveSearch range: NSMakeRange(0, [jsonString length])];
NSMutableURLRequest *mutableRequest = [myRequest mutableCopy];
mutableRequest.HTTPBody = [sanitizedString dataUsingEncoding:NSUTF8StringEncoding];
myRequest = mutableRequest;
}
}
return myRequest;
}
来自de(德国)维基百科,页面'Stadio_Arena_Garibaldi _-Romeo_Anconetani',在gzip文件覆盖的长达一小时的时间内被引用过一次,服务器返回了11,820字节。
这条线看起来像胡言乱语。
> CREATE DATABASE TESTDB
> GO
然而,前两个字符表示它代表对维基百科的阿拉伯语版本的引用。 '%'项是非ascii字符。