Question

需要http://wikirank.net的数据提取方面的帮助。

此服务具有API，但仅限于质量和受欢迎程度得分。我需要选定维基百科文章的特定指标（长度，参考，部分等），用于计算这些得分。从relevant study开始，我找到了这个公式：

\frac{1}{c}\sum_{i=1}^cnm_{i}

在哪里＆＃34; nm＆＃34;是标准化的指标＆＃34; i＆＃34;。

也许有办法从网络版服务的HTML / Javascript代码中提取这些特定指标。

是否有用于解决此任务的Python库？

Answer 1

在scrapy和BeautifulSoup等python库中可以使用

（https://www.analyticsvidhya.com/blog/2015/10/beginner-guide-web-scraping-beautiful-soup-python/）

http://wikirank.net/上的图片上显示http://math.bu.edu/people/mveillet/html/alphastablepub.html上的分布看似稳定分布（ power law in log-log plot） p>

（https://en.wikipedia.org/wiki/Stable_distribution）

你也可以用scrapy刮掉多个页面：

Answer 2

如果您需要Python中的解决方案，以下代码可能很有用：

import urllib2, re
metrics_names=['Len.','Ref.','Img.','Sec.','RL']
resp = urllib2.urlopen('http://wikirank.net/en/Chelyabinsk')
page = resp.read()
m=re.findall('<metrics>([^<]+)<',page)
metrics_values=m[0].split(',')
metrics={}
for num in range(len(metrics_names)):
    metrics[metrics_names[num]]=metrics_values[num]

在此示例中， metrics 将具有以下值：

{'Img.': '100', 'RL': '52.46', 'Sec.': '100', 'Len.': '77.12', 'Ref.': '40.71'}

WikiRank解析器

2 个答案: