我正在尝试解析一个日志文件。它包含如下所示的结构 我想用python做它,并希望将提取的数据存储在数据库中,我该怎么做?
我能够解析简单的键值对但面临一些问题。
1:如何解析嵌套结构,示例文件中的示例上下文字段是否嵌套在主组中?
2:如果分隔符以字符串形式出现,如何处理条件。比如key:值对分隔符是冒号(:)和" site" key有一个键:值对site_url:http://something.com这里url还包含冒号(:),它给出了错误的答案。
{
"username": "lavania",
"host": "10.105.22.32",
"event_source": "server",
"event_type": "/courses/XYZ/CS101/2014_T1/xblock
/i4x:;_;_XYZ;_CS101;_video;_d333fa637a074b41996dc2fd5e675818/handler/xmodule_handler/save_user_state",
"context": {
"course_id": "XYZ/CS101/2014_T1",
"course_user_tags": {},
"user_id": 42,
"org_id": "XYZ"
},
"time": "2014-06-20T05:49:10.468638+00:00",
"site":"http://something.com",
"ip": "127.0.0.1",
"event": "{\"POST\": {\"saved_video_position\": [\"00:02:10\"]}, \"GET\": {}}",
"agent": "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:18.0) Gecko/20100101 Firefox/18.0",
"page": null
}
{
"username": "rihana",
"host": "10.105.22.32",
"event_source": "server",
"event_type": "problem_check",
"context": {
"course_id": "XYZ/CS101/2014_T1",
"course_user_tags": {},
"user_id": 40,
"org_id": "XYZ",
"module": {
"display_name": ""
}
},
"time": "2014-06-20T06:43:52.716455+00:00",
"ip": "127.0.0.1",
"event": {
"submission": {
"i4x-XYZ-CS101-problem-33e4aac93dc84f368c93b1d08fa984fc_2_1": {
"input_type": "choicegroup",
"question": "",
"response_type": "multiplechoiceresponse",
"answer": "MenuInflater.inflate()",
"variant": "",
"correct": true
}
},
"success": "correct",
"grade": 1,
"correct_map": {
"i4x-XYZ-CS101-problem-33e4aac93dc84f368c93b1d08fa984fc_2_1": {
"hint": "",
"hintmode": null,
"correctness": "correct",
"npoints": null,
"msg": "",
"queuestate": null
}
},
"state": {
"student_answers": {},
"seed": 1,
"done": null,
"correct_map": {},
"input_state": {
"i4x-XYZ-CS101-problem-33e4aac93dc84f368c93b1d08fa984fc_2_1": {}
}
},
"answers": {
"i4x-XYZ-CS101-problem-33e4aac93dc84f368c93b1d08fa984fc_2_1": "choice_0"
},
"attempts": 1,
"max_grade": 1,
"problem_id": "i4x://XYZ/CS101/problem/33e4aac93dc84f368c93b1d08fa984fc"
},
"agent": "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:29.0) Gecko/20100101 Firefox/29.0",
"page": "x_module"
}
{
"username": "troysa",
"host": "localhost",
"event_source": "server",
"event_type": "/courses/XYZ/CS101/2014_T1/instructor_dashboard/api/list_instructor_tasks",
"context": {
"course_id": "XYZ/CS101/2014_T1",
"course_user_tags": {},
"user_id": 6,
"org_id": "XYZ"
},
"time": "2014-06-20T05:49:26.780244+00:00",
"ip": "127.0.0.1",
"event": "{\"POST\": {}, \"GET\": {}}",
"agent": "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:29.0) Gecko/20100101 Firefox/29.0",
"page": null
}
答案 0 :(得分:1)
您的数据采用JSON格式。使用标准库中的json
模块进行解析。
但是,您的数据似乎是连接在一起的几个JSON dicts。希望您只是从几个单独的条目中粘贴,否则在开始非常详细地解析之前,您将不得不进行一些数据清理。
假设这些是单个文件,我将举例说明已加载到"username": "raeha"
变量中的data
集:
>>> import json
>>> newdata = json.loads(data)
>>> print(newdata["context"])
{'course_id': 'XYZ/CS101/2014_T1', 'course_user_tags': {}, 'org_id': 'XYZ', 'user_id': 40, 'module': {'display_name': ''}}
>>> print(newdata["context"]["user_id"])
40
json.loads()
方法接受原始JSON数据(作为字符串)并将其格式化为Python数据类型。通常,最外面的类型是一个dict,每个键都是一个字符串,每个值可以是字符串,列表,字典,数值或类似True
,False
或{{ 1}}。这些对应于JSON中的None
,true
和false
。
答案 1 :(得分:0)
正如已经指出的,这是一个JSON数据结构。我写了一些快速代码,它将逐行读取您的日志文件,并尝试查找完整的多行json对象。一旦读完所有行,它就完成了。我在对象上使用pprint,以便输出是人类可读的,以确保返回的dict看起来正确。
import json
import pprint
with open("log.txt") as infile:
# Loop until we have parsed all the lines.
for line in infile:
# Read lines until we find a complete object
while (True):
try:
json_data = json.loads(line)
# We have a complete onject here
pprint.pprint(json_data)
# Try and find a new JSON object
break
except ValueError:
# We don't have a complete JSON object
# read another line and try again
line += next(infile)
此代码有点像kludge。它读取一行,看看我们是否有一个完整的可解析对象。如果没有,它会读取下一行并将其与最后一行连接。这将继续,直到可以加载可解析的对象。然后它反复执行此操作,直到消耗掉所有行并找到所有对象。
在代码的这一点上,您已经将完整的JSON对象读入json_data
:
pprint.pprint(json_data)
我打印出了dict,但它是一个标准的python字典,可以像使用普通的dict遍历一样处理数据。例如,您可以使用以下内容检索course_id
:
json_data['context']['course_id']
或host
via:
json_data['host']