从列表中计算唯一的交叉集

时间:2012-10-05 12:25:40

标签: python list matrix

我有两个不同长度尺寸的二维数字列表。这些代表主机的开放端口。下面的列表显示了4个不同主机上的开放端口:

ports = [[22,23],[22],[22,23,80],[23,80]]

我想计算两个或多个主机共享的所有端口的唯一组合,在本例中我应该得到以下结果:

Ports -> Count
22     -> 3
22, 23 -> 2
23     -> 3
23, 80 -> 2
80     -> 2

我已经实施了一个解决方案,但我的结果不正确,因为我对给定组合的计数往往超过我正在使用的主机数量,为简洁起见,我没有发布我很长的解决方案,但会概述它在伪代码中:

  • 在每个主机之间创建交叉矩阵

  • 提取/展平矩阵以仅包含唯一的集合,即不包含相反的顺序。

    -- a AND b, b AND a => a AND b
    
  • 从(提取/展平)列表中创建一个包含每组唯一端口的新列表 以及设置发生的次数。

1 个答案:

答案 0 :(得分:5)

使用itertools中的powerset食谱:

from collections import Counter
from itertools import chain, combinations

def powerset(iterable):
    "powerset([1,2,3]) --> () (1,) (2,) (3,) (1,2) (1,3) (2,3) (1,2,3)"
    s = list(iterable)
    return chain.from_iterable(combinations(s, r) for r in range(len(s)+1))

def port_table(ports):
    d = Counter()
    for portseq in ports:
        for subset in powerset(sorted(portseq)):
            if subset:
                d[subset] += 1
    return d

基本上,powerset给出了所有可能的子集(包括空子集,因此if subset:要跳过它),然后对于我们在每个端口列表中看到的每个子集,我们递增Counter个对象。然后产生

>>> ports = [[22,23],[22],[22,23,80],[23,80]]
>>> table = port_table(ports)
>>> for port, count in sorted(table.items()):
...     if count > 1:
...         print port, '->', count
... 
(22,) -> 3
(22, 23) -> 2
(23,) -> 3
(23, 80) -> 2
(80,) -> 2