我想做那样的事情。
list_of_urls = ['http://www.google.fr/', 'http://www.google.fr/',
'http://www.google.cn/', 'http://www.google.com/',
'http://www.google.fr/', 'http://www.google.fr/',
'http://www.google.fr/', 'http://www.google.com/',
'http://www.google.fr/', 'http://www.google.com/',
'http://www.google.cn/']
urls = [{'url': 'http://www.google.fr/', 'nbr': 1}]
for url in list_of_urls:
if url in [f['url'] for f in urls]:
urls[??]['nbr'] += 1
else:
urls.append({'url': url, 'nbr': 1})
我该怎么办?我不知道是否应该使用元组来编辑它或找出元组索引?
任何帮助?
答案 0 :(得分:167)
这是组织事物的一种非常奇怪的方式。如果您存储在字典中,这很容易:
# This example should work in any version of Python.
# urls_d will contain URL keys, with counts as values, like: {'http://www.google.fr/' : 1 }
urls_d = {}
for url in list_of_urls:
if not url in urls_d:
urls_d[url] = 1
else:
urls_d[url] += 1
这个用于更新计数字典的代码是Python中常见的“模式”。很常见的是,有一个特殊的数据结构defaultdict
,只是为了让它更容易创建:
from collections import defaultdict # available in Python 2.5 and newer
urls_d = defaultdict(int)
for url in list_of_urls:
urls_d[url] += 1
如果您使用密钥访问defaultdict
,并且密钥不在defaultdict
中,则密钥会自动添加默认值。 defaultdict
获取您传入的可调用对象,并调用它以获取默认值。在这种情况下,我们通过了课程int
;当Python调用int()
时,它返回一个零值。因此,第一次引用URL时,其计数初始化为零,然后在计数中添加一个。
但是一个充满计数的字典也是一种常见模式,因此Python提供了一个现成的类:containers.Counter
您只需通过调用类创建一个Counter
实例,传入任何可迭代的类;它构建了一个字典,其中键是来自iterable的值,值是关键字在迭代中出现的次数的计数。上面的例子变成了:
from collections import Counter # available in Python 2.7 and newer
urls_d = Counter(list_of_urls)
如果你真的需要按照你展示的方式去做,最简单快捷的方法就是使用这三个例子中的任何一个,然后构建你需要的那个。
from collections import defaultdict # available in Python 2.5 and newer
urls_d = defaultdict(int)
for url in list_of_urls:
urls_d[url] += 1
urls = [{"url": key, "nbr": value} for key, value in urls_d.items()]
如果您使用的是Python 2.7或更高版本,则可以单行编写:
from collections import Counter
urls = [{"url": key, "nbr": value} for key, value in Counter(list_of_urls).items()]
答案 1 :(得分:117)
使用默认作品,但也是如此:
urls[url] = urls.get(url, 0) + 1
使用.get
,如果不存在,您可以获得默认返回。默认情况下它是None,但在我发送给你的情况下,它将是0。
答案 2 :(得分:18)
使用defaultdict:
from collections import defaultdict
urls = defaultdict(int)
for url in list_of_urls:
urls[url] += 1
答案 3 :(得分:10)
这对我来说总是很好:
for url in list_of_urls:
urls.setdefault(url, 0)
urls[url] += 1
答案 4 :(得分:3)
完全按照你的方式去做?你可以使用for ... else结构
for url in list_of_urls:
for url_dict in urls:
if url_dict['url'] == url:
url_dict['nbr'] += 1
break
else:
urls.append(dict(url=url, nbr=1))
但它非常不优雅。你真的必须将访问过的网址存储为LIST吗? 例如,如果你把它排序为dict,用url字符串索引,那就更干净了:
urls = {'http://www.google.fr/': dict(url='http://www.google.fr/', nbr=1)}
for url in list_of_urls:
if url in urls:
urls[url]['nbr'] += 1
else:
urls[url] = dict(url=url, nbr=1)
第二个例子中需要注意的一些事项:
urls
测试单urls
时,如何使用url
的dict消除了浏览整个dict( )
列表的需要。这种方法会更快。list_of_urls
代替大括号可缩短您的代码urls
,url
和urls_to_visit
作为变量名使代码很难解析。最好找到更清晰的内容,例如urls_already_visited
,current_url
和dict(url='http://www.google.fr', nbr=1)
。我知道,它更长。但它更清楚。当然我假设urls
是对您自己的数据结构的简化,因为否则,urls = {'http://www.google.fr':1}
for url in list_of_urls:
if url in urls:
urls[url] += 1
else:
urls[url] = 1
可能只是:
urls = collections.defaultdict(int)
for url in list_of_urls:
urls[url] += 1
使用defaultdict姿势可以变得非常优雅:
{{1}}
答案 5 :(得分:2)
除了第一次,每次看到一个单词时,if语句的测试失败。如果要计算大量单词,很多单词可能会出现多次。在一个值的初始化只发生一次并且该值的增加将多次发生的情况下,使用try语句会更便宜:
urls_d = {}
for url in list_of_urls:
try:
urls_d[url] += 1
except KeyError:
urls_d[url] = 1
您可以阅读更多相关信息:https://wiki.python.org/moin/PythonSpeed/PerformanceTips