我有一个巨大的文件(大约200k输入)。输入格式为:
A B C D
B E F
C A B D
D
我正在阅读此文件并将其存储在列表中,如下所示:
text = f.read().split('\n')
只要看到新行,就会拆分文件。因此,文字如下:
[[A B C D] [B E F] [C A B D] [D]]
我现在必须将这些值存储在字典中,其中键值是每个列表中的第一个元素。键是A,B,C,D。 我发现很难输入值作为列表的其余元素。字典应该是这样的:
{A: [B C D]; B: [E F]; C: [A B D]; D: []}
我做了以下事情:
inlinkDict = {}
for doc in text:
adoc= doc.split(' ')
docid = adoc[0]
inlinkDict[docid] = inlinkDict.get(docid,0) + {I do not understand what to put in here}
请帮助我如何将值添加到我的字典中。如果列表中没有元素,那么它应该是0,除了作为键值的元素。就像0中的例子一样。
答案 0 :(得分:20)
尝试使用切片:
inlinkDict[docid] = adoc[1:]
对于只有键值在行上的情况,这将为您提供一个空列表而不是0。要获得0,请使用or
(始终返回其中一个操作数):
inlinkDict[docid] = adoc[1:] or 0
使用字典理解更容易:
>>> with open('/tmp/spam.txt') as f:
... data = [line.split() for line in f]
...
>>> {d[0]: d[1:] for d in data}
{'A': ['B', 'C', 'D'], 'C': ['A', 'B', 'D'], 'B': ['E', 'F'], 'D': []}
>>> {d[0]: ' '.join(d[1:]) if d[1:] else 0 for d in data}
{'A': 'B C D', 'C': 'A B D', 'B': 'E F', 'D': 0}
注意:dict键必须是唯一的,所以如果你有两行以'C'开头,那么第一行将被覆盖。
答案 1 :(得分:20)
词典理解简化了这项任务:
>>> s = [['A','B','C','D'], ['B','E','F'], ['C','A','B','D'], ['D']]
>>> {t[0]:t[1:] for t in s}
{'A': ['B', 'C', 'D'], 'C': ['A', 'B', 'D'], 'B': ['E', 'F'], 'D': []}
答案 2 :(得分:4)
接受的答案是正确的,除了它将整个文件读入内存(如果你有一个大文件可能不是这样),它会覆盖重复的密钥。
使用defaultdict的替代方法(可从Python 2.4获得)解决了这个问题:
from collections import defaultdict
d = defaultdict(list)
with open('/tmp/spam.txt') as f:
for line in f:
parts = line.strip().split()
d[parts[0]] += parts[1:]
输入:
A B C D B E F C A B D D C H I J
结果:
>>> d = defaultdict(list)
>>> with open('/tmp/spam.txt') as f:
... for line in f:
... parts = line.strip().split()
... d[parts[0]] += parts[1:]
...
>>> d['C']
['A', 'B', 'D', 'H', 'I', 'J']