Question

我想做那样的事情。

list_of_urls = ['http://www.google.fr/', 'http://www.google.fr/', 
                'http://www.google.cn/', 'http://www.google.com/', 
                'http://www.google.fr/', 'http://www.google.fr/', 
                'http://www.google.fr/', 'http://www.google.com/', 
                'http://www.google.fr/', 'http://www.google.com/', 
                'http://www.google.cn/']

urls = [{'url': 'http://www.google.fr/', 'nbr': 1}]

for url in list_of_urls:
    if url in [f['url'] for f in urls]:
         urls[??]['nbr'] += 1
    else:
         urls.append({'url': url, 'nbr': 1})

我该怎么办？我不知道是否应该使用元组来编辑它或找出元组索引？

任何帮助？

Answer 1

这是组织事物的一种非常奇怪的方式。如果您存储在字典中，这很容易：

# This example should work in any version of Python.
# urls_d will contain URL keys, with counts as values, like: {'http://www.google.fr/' : 1 }
urls_d = {}
for url in list_of_urls:
    if not url in urls_d:
        urls_d[url] = 1
    else:
        urls_d[url] += 1

这个用于更新计数字典的代码是Python中常见的“模式”。很常见的是，有一个特殊的数据结构defaultdict，只是为了让它更容易创建：

from collections import defaultdict  # available in Python 2.5 and newer

urls_d = defaultdict(int)
for url in list_of_urls:
    urls_d[url] += 1

如果您使用密钥访问defaultdict，并且密钥不在defaultdict中，则密钥会自动添加默认值。 defaultdict获取您传入的可调用对象，并调用它以获取默认值。在这种情况下，我们通过了课程int;当Python调用int()时，它返回一个零值。因此，第一次引用URL时，其计数初始化为零，然后在计数中添加一个。

但是一个充满计数的字典也是一种常见模式，因此Python提供了一个现成的类：containers.Counter您只需通过调用类创建一个Counter实例，传入任何可迭代的类;它构建了一个字典，其中键是来自iterable的值，值是关键字在迭代中出现的次数的计数。上面的例子变成了：

from collections import Counter  # available in Python 2.7 and newer

urls_d = Counter(list_of_urls)

如果你真的需要按照你展示的方式去做，最简单快捷的方法就是使用这三个例子中的任何一个，然后构建你需要的那个。

from collections import defaultdict  # available in Python 2.5 and newer

urls_d = defaultdict(int)
for url in list_of_urls:
    urls_d[url] += 1

urls = [{"url": key, "nbr": value} for key, value in urls_d.items()]

如果您使用的是Python 2.7或更高版本，则可以单行编写：

from collections import Counter

urls = [{"url": key, "nbr": value} for key, value in Counter(list_of_urls).items()]

Answer 2

使用默认作品，但也是如此：

urls[url] = urls.get(url, 0) + 1

使用.get，如果不存在，您可以获得默认返回。默认情况下它是None，但在我发送给你的情况下，它将是0。

Answer 3

使用defaultdict：

from collections import defaultdict

urls = defaultdict(int)

for url in list_of_urls:
    urls[url] += 1

Answer 4

这对我来说总是很好：

for url in list_of_urls:
    urls.setdefault(url, 0)
    urls[url] += 1

Answer 5

完全按照你的方式去做？你可以使用for ... else结构

for url in list_of_urls:
    for url_dict in urls:
        if url_dict['url'] == url:
            url_dict['nbr'] += 1
            break
    else:
        urls.append(dict(url=url, nbr=1))

但它非常不优雅。你真的必须将访问过的网址存储为LIST吗？例如，如果你把它排序为dict，用url字符串索引，那就更干净了：

urls = {'http://www.google.fr/': dict(url='http://www.google.fr/', nbr=1)}

for url in list_of_urls:
    if url in urls:
        urls[url]['nbr'] += 1
    else:
        urls[url] = dict(url=url, nbr=1)

第二个例子中需要注意的一些事项：

了解在urls测试单urls时，如何使用url的dict消除了浏览整个dict( )列表的需要。这种方法会更快。
使用list_of_urls代替大括号可缩短您的代码
使用urls，url和urls_to_visit作为变量名使代码很难解析。最好找到更清晰的内容，例如urls_already_visited，current_url和dict(url='http://www.google.fr', nbr=1)。我知道，它更长。但它更清楚。

当然我假设urls是对您自己的数据结构的简化，因为否则，urls = {'http://www.google.fr':1} for url in list_of_urls: if url in urls: urls[url] += 1 else: urls[url] = 1可能只是：

urls = collections.defaultdict(int)
for url in list_of_urls:
    urls[url] += 1

使用defaultdict姿势可以变得非常优雅：

{{1}}

Answer 6

除了第一次，每次看到一个单词时，if语句的测试失败。如果要计算大量单词，很多单词可能会出现多次。在一个值的初始化只发生一次并且该值的增加将多次发生的情况下，使用try语句会更便宜：

urls_d = {}
for url in list_of_urls:
    try:
        urls_d[url] += 1
    except KeyError:
        urls_d[url] = 1

您可以阅读更多相关信息：https://wiki.python.org/moin/PythonSpeed/PerformanceTips

Python：dict列表，如果存在则递增一个dict值，如果没有附加一个新的dict

6 个答案: