我是python的新手。有人帮我解决这个问题。我有一个数据集,第一行包含属性,剩余行包含记录。
我的要求是将每条记录与其他记录进行比较,并给出不同元素的属性名称。所以最后,我应该将一组集合作为输出。
例如,如果我有3条记录,其中包含3列这样的记录。
Col1 Col2 Col3
tuple1 H C G
tuple2 H M G
tuple3 L M S
它应该像我这样tuple1,tuple2 = {Col2} tuple1,tuple3 = {Col1,Col2,Col3} tuple2,tuple3 = {Col1,Col3}
最终输出应为{{Col2},{Col1,Col2,Col3},{Col1,Col3}}
这是我试过的代码,
我现在所做的是,将每行读入列表。所以一个列表中的所有属性(列表名称是list_attr)和行列表列表(列表名称是行)。然后对于每个记录,我循环使用其他记录,比较每个元素并获取不同元素的索引以获取属性名称。然后最终将它们转换为设置。我已经给出了下面的代码,但问题是,我有50k记录和15个属性要处理,所以这个循环需要很长时间才能执行,有没有其他方法可以很快完成或提高性能。
dis_sets = []
for l in rows:
for l1 in rows:
if l != l1:
i = 0
in_sets = []
while(i < length):
if l[i] != l1[i]:
in_sets.append(list_attr[i])
i = i+1
if in_sets != []:
dis_sets.append(in_sets)
skt = set(frozenset(temp) for temp in dis_sets)
答案 0 :(得分:3)
考虑:
>>> tuple1=('H', 'C', 'G')
>>> tuple2=('H', 'M', 'G')
>>> tuple3=('L', 'M', 'S')
好的,你说明了我的要求是将每条记录与其他记录进行比较,并给出不同元素的属性名称。&#39;
将其放入代码:
>>> [i for i, t in enumerate(zip(tuple1, tuple2), 1) if t[0]!=t[1]]
[2]
>>> [i for i, t in enumerate(zip(tuple1, tuple3), 1) if t[0]!=t[1]]
[1, 2, 3]
>>> [i for i, t in enumerate(zip(tuple2, tuple3), 1) if t[0]!=t[1]]
[1, 3]
然后你陈述&#39;最后的输出应该是{{Col2},{Col1,Col2,Col3},{Col1,Col3}}
由于一组集将失去顺序,这没有意义。它应该是:
>>> [[i for i, t in enumerate(zip(*pair), 1) if t[0]!=t[1]] for pair in
... [(tuple1, tuple2), (tuple1, tuple3), (tuple2, tuple3)]]
[[2], [1, 2, 3], [1, 3]]
如果确实想要集合,您可以将它们作为子元素;如果你有一组真正的集合,你就失去了哪一对的信息。
套装清单:
>>> [{i for i, t in enumerate(zip(*pair), 1) if t[0]!=t[1]} for pair in
... [(tuple1, tuple2), (tuple1, tuple3), (tuple2, tuple3)]]
[set([2]), set([1, 2, 3]), set([1, 3])]
您的几乎同样需要的输出:
>>> [{'Col{}'.format(i) for i, t in enumerate(zip(*pair), 1) if t[0]!=t[1]} for pair in
... [(tuple1, tuple2), (tuple1, tuple3), (tuple2, tuple3)]]
[set(['Col2']), set(['Col2', 'Col3', 'Col1']), set(['Col3', 'Col1'])]
(请注意,由于集合是无序的,因此字符串的顺序会发生变化。如果顶级订单发生变化,您有什么?)
请注意,如果您有一个列表列表,那么您就更接近所需的输出:
>>> [['Col{}'.format(i) for i, t in enumerate(zip(*pair), 1) if t[0]!=t[1]] for pair
... in [(tuple1, tuple2), (tuple1, tuple3), (tuple2, tuple3)]]
[['Col2'], ['Col1', 'Col2', 'Col3'], ['Col1', 'Col3']]
根据评论进行编辑
你可以做类似的事情:
def pairs(LoT):
# for production code, consider using a deque of tuples...
seen=set() # hold the pair combinations seen
while LoT:
f=LoT.pop(0)
for e in LoT:
se=frozenset([f, e])
if se not in seen:
seen.add(se)
yield se
>>> list(pairs([('H', 'C', 'G'), ('H', 'M', 'G'), ('L', 'M', 'S')]))
[frozenset([('H', 'M', 'G'), ('H', 'C', 'G')]), frozenset([('L', 'M', 'S'), ('H', 'C', 'G')]), frozenset([('H', 'M', 'G'), ('L', 'M', 'S')])]
然后可以使用它:
>>> LoT=[('H', 'C', 'G'), ('H', 'M', 'G'), ('L', 'M', 'S')]
>>> [['Col{}'.format(i) for i, t in enumerate(zip(*pair), 1) if t[0]!=t[1]] for pair
... in pairs(LoT)]
[['Col2'], ['Col1', 'Col2', 'Col3'], ['Col1', 'Col3']]
编辑#2
如果您想要标题与计算值:
>>> theader=['tuple col 1', 'col 2', 'the third' ]
>>> [[theader[i] for i, t in enumerate(zip(*pair)) if t[0]!=t[1]] for pair
... in pairs(LoT)]
[['col 2'], ['tuple col 1', 'col 2', 'the third'], ['tuple col 1', 'the third']]
如果你想(我怀疑正确的答案)列表的列表:
>>> di=[]
>>> for pair in pairs(LoT):
... di.append({repr(list(pair)): [theader[i] for i, t in enumerate(zip(*pair)) if t[0]!=t[1]]})
>>> di
[{"[('H', 'M', 'G'), ('H', 'C', 'G')]": ['col 2']}, {"[('L', 'M', 'S'), ('H', 'C', 'G')]": ['tuple col 1', 'col 2', 'the third']}, {"[('H', 'M', 'G'), ('L', 'M', 'S')]": ['tuple col 1', 'the third']}]
或者,只是一个直接的列表词典:
>>> di={}
>>> for pair in pairs(LoT):
... di[repr(list(pair))]=[theader[i] for i, t in enumerate(zip(*pair)) if t[0]!=t[1]]
>>> di
{"[('H', 'M', 'G'), ('L', 'M', 'S')]": ['tuple col 1', 'the third'], "[('L', 'M', 'S'), ('H', 'C', 'G')]": ['tuple col 1', 'col 2', 'the third'], "[('H', 'M', 'G'), ('H', 'C', 'G')]": ['col 2']}