这是我为获得alexa排名而编写的脚本。
#!/usr/bin/env python
import sys
import requests
from lxml import html
if __name__ == '__main__':
if len(sys.argv) < 2:
print 'usage: python %s <file-urls>' % (sys.argv[0])
sys.exit(2)
filename = sys.argv[1]
urls = open(filename)
for site in urls:
try:
url="http://www.alexa.com/siteinfo/"+site
content=requests.get(url).content
tree=html.fromstring(content)
RANK=tree.xpath('//strong[@class="metrics-data align-vmiddle"]/text()')
print "Site:",site+"Global Rank:",RANK[0]+"\t"+"Country Rank:",RANK[1]
# print 'Site:%s Global Rank:%2s Country Rank:%2s' % (site, RANK[0], RANK[1])
except (KeyboardInterrupt, SystemExit):
print "Keyboar Interruption!"
sys.exit(0)
结果:
Site: google.com
Global Rank: 1 Country Rank: 1
Site: yahoo.com
Global Rank: 4 Country Rank: 4
Site: bing.com
Global Rank: 23 Country Rank: 14
结果不理想。你能说明如何更好地整理结果吗?
答案 0 :(得分:0)
site
包含换行符,因为它可能是从每行一个单词的文件中读取的。在使用之前将其剥离,换行符以及任何空格都消失了。
还要考虑使用字符串表示法而不是字符串附加。
for site in urls:
site = site.strip()
url="http://www.alexa.com/siteinfo/%s" % (site,)
<..>