获取唯一的主机名

Question

我需要从python中具有共同部分的列表中删除重复项。我的清单是这样的：

- Addition  domainname1.com 80.80.80.80
+ Addition  domainname1.com 80.80.80.81
- Bitsquatting domainname2.com 104.160.171.87
+ Bitsquatting domainname2.com 104.160.172.85
- Homoglyph domainname3.com 206.188.193.4
- Insertion domainname4.com 206.188.200.6
- Insertion domainname5.com 206.188.200.7
+ Insertion domainname5.com 206.188.200.8

从此列表中，我只想保留具有唯一域名的字符串（而不保留具有通用域名和不同IP的字符串）：

- Homoglyph domainname3.com 206.188.193.4
- Insertion domainname4.com 206.188.200.6

我试图使用split()来获取域名列表：

domainname1.com
domainname1.com
domainname2.com
domainname2.com
domainname3.com
domainname4.com
domainname5.com
domainname5.com

并删除通用域名，但我被迫从先前的列表中删除相应的字符串。

for line in change:
    name = line.split()
    domain_name = name[2]

我获取域名列表的方式（change是我的初始列表）。

谢谢

Answer 1

获取唯一的主机名

您可以遍历各行，每次将域名添加到set中，例如：

my_set = {line.split()[2] for line in change}
the_domains = list(my_set)

鉴于所有行都遵循以下格式：域是一个“单词”，而该域之前有两个“单词”，就可以解决问题。

以上不不能保证订单得到维护。如果需要，您可以使用唯一性过滤器，例如：

def uniq(iterable):
    already = set()
    for x in iterable:
        if x not in already:
            yield x
            already.add(x)

然后我们可以像这样处理它：

the_domains = list(uniq(line.split()[2] for line in change))

获取具有唯一主机名的行

我们可以稍微概括一下uniq函数以允许使用关键参数，例如：

def uniq(iterable, key=lambda x: x):
    already = set()
    for x in iterable:
        fx = key(x)
        if fx not in already:
            yield x
            already.add(fx)

然后我们可以使用以下命令来添加主机名的 first 行：

the_domains = list(uniq(change, key=lambda line: line.split()[2]))

删除具有两次或更多次出现的主机名的行

我们还可以使用计数器删除主机名出现两次或两次以上的所有行：

from collections import Counter

def non_dup(iterable, key=lambda x: x):
    iterable = list(iterable)
    cntr = Counter(map(key, iterable))
    return filter(lambda x: cntr[key(x)] < 2, iterable)

然后我们用以下方法过滤：

the_domains = list(non_dup(change, key=lambda line: line.split()[2]))

如何从具有共同部分的列表中删除字符串

1 个答案:

获取唯一的主机名

获取具有唯一主机名的行

删除具有两次或更多次出现的主机名的行