WikiRank解析器

时间:2018-01-14 13:17:14

标签: javascript python html parsing

需要http://wikirank.net的数据提取方面的帮助。

此服务具有API,但仅限于质量和受欢迎程度得分。我需要选定维基百科文章的特定指标(长度,参考,部分等),用于计算这些得分。从relevant study开始,我找到了这个公式:

\frac{1}{c}\sum_{i=1}^cnm_{i}

在哪里" nm"是标准化的指标" i"。

也许有办法从网络版服务的HTML / Javascript代码中提取这些特定指标。

是否有用于解决此任务的Python库?

2 个答案:

答案 0 :(得分:0)

答案 1 :(得分:0)

如果您需要Python中的解决方案,以下代码可能很有用:

import urllib2, re
metrics_names=['Len.','Ref.','Img.','Sec.','RL']
resp = urllib2.urlopen('http://wikirank.net/en/Chelyabinsk')
page = resp.read()
m=re.findall('<metrics>([^<]+)<',page)
metrics_values=m[0].split(',')
metrics={}
for num in range(len(metrics_names)):
    metrics[metrics_names[num]]=metrics_values[num]

在此示例中, metrics 将具有以下值:

{'Img.': '100', 'RL': '52.46', 'Sec.': '100', 'Len.': '77.12', 'Ref.': '40.71'}