Question

总体来说，我还是python新手。我目前正在尝试读取从此站点提取的JSON文件：

https://public.opendatasoft.com/explore/dataset/us-115th-congress-members/table/?rows=100&lang=EN&refine.rep_sen=Senator&exclude.rep_sen=Representative

但是，当我通过以下方式阅读它时：

senators_json = pd.read_json('us-115th-congress-members.json', orient = 'columns')
senators_json

我似乎无法访问我真正想要的字段（在“字段”列中）。我在读取json文件方面是否完全脱离基础？

Current Code Results

Answer 1

您需要先对数据进行一些调整。这似乎是您想要的：

j = json.load(open('/tmp/us-115th-congress-members.json', 'r'))
df = pd.DataFrame(v['fields'] for v in j) 
df.columns

礼物：

Index(['district', 'geo_point_2d', 'geo_shape', 'geoid', 'image', 'name', 'party', 'rep_sen', 'state_code', 'state_label', 'url'], dtype='object')

第二行中的v['fields'] for v in j是一个简单的list comprehension，用于将原始列表中的每个项目映射到每个项目的“字段”键。

Answer 2

您要查找的数据位于“字段”列中，该列包含字典：

import pandas as pd
df = pd.read_json("us-115th-congress-members.json")

df.shape
# (544, 5)

df.columns
Index(['datasetid', 'fields', 'geometry', 'record_timestamp', 'recordid'], dtype='object')

df["fields"][0].keys()
# dict_keys(['rep_sen', 'name', 'district', 'state_label', 'url', 'image', 'geo_point_2d', 'geo_shape', 'party', 'state_code', 'geoid'])

df["fields"][0]["name"]
# 'Palmer, Gary J.'

您可以直接使用json模块，因为在这种情况下可以轻松处理数据：

import json
with open("us-115th-congress-members.json", "rt") as f:
    df = json.load(f)

df[0].keys()
# dict_keys(['datasetid', 'recordid', 'fields', 'geometry', 'record_timestamp'])

如何在Python中解析JSON文件

2 个答案: