我有这样的数据集:
['Registration:1005227',
'FileNumber:A0485456',
'Status:Terminated',
'FAA\xa0Study:02-ANE-198-OE',
'Contact:Department,Regulatory(617)585-7600',
'Locatedin:\xa0ABINGTON,MALat/Long:42-06-48.0N070-56-58.0W\xa0',
'PaintingandLightingSpecifications:None',
'Registration:1015227',
'FileNumber:A0485451',
etc etc...]
......数千次。在熊猫中工作,我认为如果我只需要Registration,Lat和Long数据,我会遍历每一行,检测关键字,然后在字典中添加一个切片。
reg = "Registration"
lat = "Lat/"
long = "Long:"
d = {}
theList = []
for line in data:
if reg in line:
d["Registration"] = line[13:20]
if lat in line:
d["Lat"] = line[-24:-14]
if long in line:
d["Lng"] = line[-13:-2]
theList.append(d)
最后,字典列表将允许我创建数据框。我遇到的问题是循环只从最后一个条目中获取数据,并将其添加到' theList' as many times as there are entries.
我已尝试将.append
置于for
循环之外。我尝试过给每个if
声明自己的for
循环,但似乎没有任何效果。我做错了什么,是否有更好的方法来解决这个问题?