重新编码JSON文件Python

时间:2018-07-14 15:33:22

标签: python json mongodb

我有一个艰巨的任务,那就是从一种格式下载json文件并以其他格式重新编码以上传到MongoDB中。我的json文件来自Alpha Vantage(https://www.alphavantage.co/query?function=TIME_SERIES_INTRADAY&symbol=MSFT&interval=1min&apikey=demo),格式如下。

"Time Series (1min)": {
    "2018-07-13 16:00:00": {
        "1. open": "105.4550",
        "2. high": "105.5600",
        "3. low": "105.3900",
        "4. close": "105.4300",
        "5. volume": "2484606"
    },
    "2018-07-13 15:59:00": {
        "1. open": "105.5300",
        "2. high": "105.5300",
        "3. low": "105.4500",
        "4. close": "105.4600",
        "5. volume": "216617"
    }

我需要使用天,小时和分钟作为键,按照以下模式重新编码文件。

{
'2018-07-13': {
    '16': {
        '00': {'open': 105.4550,
              'high': 105.5600,
              'low': 105.3900,
              'close': 105.4300,
              'volume': 2484606,}
        }
    }
'2018-07-13': {
    '15': {
        '59': {'open': 105.53000,
              'high': 105.5300,
              'low': 105.4500,
              'close': 105.4600,
              'volume': 6484606,}
        }
    }
}

我已经做了很多研究,但是我没有弄清楚如何使用循环来构造具有多个键的Dictionary,同时我阅读了我想在Dict中重新编码的json文件。

1 个答案:

答案 0 :(得分:1)

我同意,如果您不习惯使用嵌套数据结构,可能会有些困惑,但是如果您小心一点,它并不难。诀窍是创建不存在的内部字典。我们可以使用dict.setdefault方法来做到这一点。

我们还需要将内部数据从字符串转换为数字。但是,如果数字不包含小数点,我们希望它们是整数,否则我们希望使用浮点数。我的str_to_num函数中显示了通常的方法。首先,我们尝试转换为整数,如果失败,则转换为浮点数。如果由于数据损坏而导致失败,则程序将引发ValueError异常并终止。您可能需要以不同的方式处理,例如忽略不良数据。

我假设您知道如何使用"Time Series (1min)"键从最外层提取所需的数据。下面的代码使用标准的json模块只是将新格式的数据转换回JSON,以便我们可以很好地打印它。

import json

alpha_data = {
    "2018-07-13 16:00:00": {
        "1. open": "105.4550",
        "2. high": "105.5600",
        "3. low": "105.3900",
        "4. close": "105.4300",
        "5. volume": "2484606"
    },
    "2018-07-13 15:59:00": {
        "1. open": "105.5300",
        "2. high": "105.5300",
        "3. low": "105.4500",
        "4. close": "105.4600",
        "5. volume": "216617"
    }
}

def str_to_num(s):
    try:
        n = int(s)
    except ValueError:
        n = float(s)
    return n

# Where we'll store the output
out_data = {}

for timestamp, data in alpha_data.items():
    datestr, timestr = timestamp.split()
    hr, mn, _ = timestr.split(':')
    # Fetch inner dicts, creating them if they don't exist yet
    d = out_data.setdefault(datestr, {})
    d = d.setdefault(hr, {})
    d[mn] = {k.split()[1]: str_to_num(v) for k, v in data.items()}

print(json.dumps(out_data, indent=4))  

输出

{
    "2018-07-13": {
        "16": {
            "00": {
                "open": 105.455,
                "high": 105.56,
                "low": 105.39,
                "close": 105.43,
                "volume": 2484606
            }
        },
        "15": {
            "59": {
                "open": 105.53,
                "high": 105.53,
                "low": 105.45,
                "close": 105.46,
                "volume": 216617
            }
        }
    }
}

您会发现我的输出与您想要的输出不完全相同。这是因为Python词典中的键是唯一的:键dict不能在同一"2018-07-13"中有两个项目。因此,我的代码在dict中使用密钥out_data"2018-07-13"中创建了一个 myPromiseArray.push(this.http.get(url, {params: params}).toPromise()) Promise.all(myPromiseArray).then(alltheValuesInAnArray => {}) ,并在该字典内部根据需要为每个小时创建了一个字典。