希望你能帮我解决这个python函数:
def comparapal(lista):#lista is a list of lists where each list has 4 elements
listaPalabras=[]
for item in lista:
if item[2] in eagles_dict.keys():# filter the list if the 3rd element corresponds to the key in the dictionary
listaPalabras.append([item[1],item[2]]) #create a new list with elements 2 and 3
listaPalabras结果:
[
['bien', 'NP00000'],
['gracia', 'NCFP000'],
['estar', 'VAIP1S0'],
['bien', 'RG'],
['huevo', 'NCMS000'],
['calcio', 'NCMS000'],
['leche', 'NCFS000'],
['proteina', 'NCFS000'],
['francisco', 'NP00000'],
['ya', 'RG'],
['ser', 'VSIS3S0'],
['cosa', 'NCFS000']
]
我的问题是:我如何比较每个列表的第一个元素,以便如果单词相同,则比较它们的标记,即第二个元素。
不好意思是模糊不清,功能必须返回一个包含3个元素的列表列表:单词,标签和每个单词的出现次数。但是为了计算我需要比较单词w / others的单词,如果存在2个或更多单词,那么将标签与chk的差异进行比较。如果标签不同,则单独计算单词。
结果 - > [[' bien',' NP00000',1],[' bien',' RG',1]] - >两个相同的单词,但通过标签的比较分别计数 提前致谢:
答案 0 :(得分:2)
import collections
inlist = [
['bien', 'NP00000'],
['gracia', 'NCFP000'],
['estar', 'VAIP1S0'],
['bien', 'RG'],
['huevo', 'NCMS000'],
['calcio', 'NCMS000'],
['leche', 'NCFS000'],
['proteina', 'NCFS000'],
['francisco', 'NP00000'],
['ya', 'RG'],
['ser', 'VSIS3S0'],
['cosa', 'NCFS000']
]
[(a,b,v) for (a,b),v in collections.Counter(map(tuple,inlist)).iteritems()]
#=>[('proteina', 'NCFS000', 1), ('francisco', 'NP00000', 1), ('ser', 'VSIS3S0', 1), ('bien', 'NP00000', 1), ('calcio', 'NCMS000', 1), ('estar', 'VAIP1S0', 1), ('huevo', 'NCMS000', 1), ('gracia', 'NCFP000', 1), ('bien', 'RG', 1), ('cosa', 'NCFS000', 1), ('ya', 'RG', 1), ('leche', 'NCFS000', 1)]
您想要计算每对的出现次数。 counter
表达式就是这样做的。列表理解将其格式化为三元组。
答案 1 :(得分:1)
您需要什么具体输出?我不知道你到底需要做什么,但是如果你想对与同一个单词相关的项目进行分组,你可以将这个结构变成字典并稍后对其进行操作
>>> new = {}
>>> for i,j in a: # <-- a = listaPalabras
if new.get(i) == None:
new[i] = [j]
else:
new[i].append(j)
这将给我们:
{'francisco': ['NP00000'], 'ser': ['VSIS3S0'], 'cosa': ['NCFS000'], 'ya': ['RG'], 'bien': ['NP00000', 'RG'], 'estar': ['VAIP1S0'], 'calcio': ['NCMS000'], 'leche': ['NCFS000'], 'huevo': ['NCMS000'], 'gracia': ['NCFP000'], 'proteina': ['NCFS000']}
然后你可以这样做:
>>> for i in new:
if len(new[i]) > 1:
print "compare {this} and {that}".format(this=new[i][0],that=new[i][1])
将打印:
compare NP00000 and RG #for key bien
编辑: 在第一步中,您也可以使用defaultdict,正如Marcin在评论中所建议的那样,这将是这样的:
>>> d = defaultdict(list)
>>> for i,j in a:
d.setdefault(i,[]).append(j)
EDIT2(回答OP的评论)
for i in d:
item = []
item.append(i)
item.extend(d[i])
item.append(len(d[i]))
result.append(item)
这给了我们:
[['francisco', 'NP00000', 1], ['ser', 'VSIS3S0', 1], ['cosa', 'NCFS000', 1], ['ya', 'RG', 1], ['bien', 'NP00000', 'RG', 2], ['estar', 'VAIP1S0', 1], ['calcio', 'NCMS000', 1], ['leche', 'NCFS000', 1], ['huevo', 'NCMS000', 1], ['gracia', 'NCFP000', 1], ['proteina', 'NCFS000', 1]]
答案 2 :(得分:0)
当然,纯粹基于列表的解决方案是可行的,但需要额外的循环。如果效率很重要,那么用词典替换listaPalabras
可能会更好。
def comparapal(lista):
listaPalabras=[]
for item in lista:
if item[2] in eagles_dict.keys():
listaPalabras.append([item[1],item[2]])
last_tt = [None, None]
for tt in sorted(listaPalabras):
if tt == last_tt:
print "Observed %s twice" % tt
elif tt[0] == last_tt[0]:
print "Observed %s and %s" % (tt, last_tt)
last_tt = tt
这会给你:
Observed ['bien', 'RG'] and ['bien', 'NP00000']
如果这不符合您的目的,请说明您的问题。