Question

这是我为获得alexa排名而编写的脚本。

#!/usr/bin/env python
import sys
import requests
from lxml import html

if __name__ == '__main__':
    if len(sys.argv) < 2:
        print 'usage: python %s <file-urls>' % (sys.argv[0])
        sys.exit(2)

filename = sys.argv[1]
urls = open(filename)
for site in urls:
    try:
        url="http://www.alexa.com/siteinfo/"+site
        content=requests.get(url).content
        tree=html.fromstring(content)
        RANK=tree.xpath('//strong[@class="metrics-data align-vmiddle"]/text()')
        print "Site:",site+"Global Rank:",RANK[0]+"\t"+"Country Rank:",RANK[1]
#        print 'Site:%s Global Rank:%2s Country Rank:%2s' % (site, RANK[0], RANK[1])
    except (KeyboardInterrupt, SystemExit):
        print "Keyboar Interruption!"
        sys.exit(0)

结果：

Site: google.com
Global Rank: 1  Country Rank: 1
Site: yahoo.com
Global Rank: 4  Country Rank: 4
Site: bing.com
Global Rank: 23 Country Rank: 14

结果不理想。你能说明如何更好地整理结果吗？

Answer 1

site包含换行符，因为它可能是从每行一个单词的文件中读取的。在使用之前将其剥离，换行符以及任何空格都消失了。

还要考虑使用字符串表示法而不是字符串附加。

for site in urls:
    site = site.strip()
    url="http://www.alexa.com/siteinfo/%s" % (site,)
    <..>

以良好的表格形式显示结果并将其列化

1 个答案: