在解析数据方面需要帮助

时间:2016-11-02 18:18:16

标签: javascript python shell apache-pig

我有这种数据格式:

13 {114800000,117800000}  {114700000} 0.00433424757229875 0.999888367939272 224.821380176483
3 {117800000}  {114700000} 0.00433666704733074 0.999776885319054 224.796313701717
5 {114800000}  {114700000} 0.00444505952876369 0.999564744287269 224.748614537403
6 {114700000}  {114800000} 0.00444505952876369 0.999455989554999 224.748614537403
14 {114700000,117800000}  {114800000} 0.00433424757229875 0.99944208881946 224.745488665843

我正在使用pig / python / shell脚本以这种格式查找结果。 任何人都可以帮我吗?

13  114800000   117800000   114700000   0.004334248 0.999888368 224.8213802
3   117800000   null        114700000   0.004336667 0.999776885 224.7963137
5   114800000   null        114700000   0.00444506  0.999564744 224.7486145
6   114700000   null        114800000   0.00444506  0.99945599  224.7486145
14  114700000   117800000   114800000   0.004334248 0.999442089 224.7454887

1 个答案:

答案 0 :(得分:1)

您可以尝试简单的拆分。假设您在名为input.txt

的文件中包含信息
import re
fd = open("input.txt", "r")
output = []
for line in fd:
    l = re.findall(r"[\w']+", line)
    if len(line) < 7:
       l.insert(2, "null")
    output.append(l)

我假设每行有7个数字,当缺少一个数字时,在第三列。

那应该有用。

相关问题