我有这种数据格式:
13 {114800000,117800000} {114700000} 0.00433424757229875 0.999888367939272 224.821380176483
3 {117800000} {114700000} 0.00433666704733074 0.999776885319054 224.796313701717
5 {114800000} {114700000} 0.00444505952876369 0.999564744287269 224.748614537403
6 {114700000} {114800000} 0.00444505952876369 0.999455989554999 224.748614537403
14 {114700000,117800000} {114800000} 0.00433424757229875 0.99944208881946 224.745488665843
我正在使用pig / python / shell脚本以这种格式查找结果。 任何人都可以帮我吗?
13 114800000 117800000 114700000 0.004334248 0.999888368 224.8213802
3 117800000 null 114700000 0.004336667 0.999776885 224.7963137
5 114800000 null 114700000 0.00444506 0.999564744 224.7486145
6 114700000 null 114800000 0.00444506 0.99945599 224.7486145
14 114700000 117800000 114800000 0.004334248 0.999442089 224.7454887
答案 0 :(得分:1)
您可以尝试简单的拆分。假设您在名为input.txt
的文件中包含信息import re
fd = open("input.txt", "r")
output = []
for line in fd:
l = re.findall(r"[\w']+", line)
if len(line) < 7:
l.insert(2, "null")
output.append(l)
我假设每行有7个数字,当缺少一个数字时,在第三列。
那应该有用。