需要http://wikirank.net的数据提取方面的帮助。
此服务具有API,但仅限于质量和受欢迎程度得分。我需要选定维基百科文章的特定指标(长度,参考,部分等),用于计算这些得分。从relevant study开始,我找到了这个公式:
\frac{1}{c}\sum_{i=1}^cnm_{i}
在哪里" nm"是标准化的指标" i"。
也许有办法从网络版服务的HTML / Javascript代码中提取这些特定指标。
是否有用于解决此任务的Python库?
答案 0 :(得分:0)
在scrapy
和BeautifulSoup
等python库中可以使用
(https://www.analyticsvidhya.com/blog/2015/10/beginner-guide-web-scraping-beautiful-soup-python/)
http://wikirank.net/上的图片上显示http://math.bu.edu/people/mveillet/html/alphastablepub.html上的分布看似稳定分布( power law in log-log plot) p>
(https://en.wikipedia.org/wiki/Stable_distribution)
你也可以用scrapy刮掉多个页面:
答案 1 :(得分:0)
如果您需要Python中的解决方案,以下代码可能很有用:
import urllib2, re
metrics_names=['Len.','Ref.','Img.','Sec.','RL']
resp = urllib2.urlopen('http://wikirank.net/en/Chelyabinsk')
page = resp.read()
m=re.findall('<metrics>([^<]+)<',page)
metrics_values=m[0].split(',')
metrics={}
for num in range(len(metrics_names)):
metrics[metrics_names[num]]=metrics_values[num]
在此示例中, metrics 将具有以下值:
{'Img.': '100', 'RL': '52.46', 'Sec.': '100', 'Len.': '77.12', 'Ref.': '40.71'}