将JSON(tweepy)中的数据解析为熊猫数据框

时间:2019-11-28 19:00:46

标签: python json pandas tweepy

我已经从Tweepy流化了tweet,并将其存储为文本文件as such。现在,我希望将其转换为熊猫数据框,但我不知道如何。我曾尝试在Stack Overflow和pandas文档中寻找类似的帖子,但是我仍然不确定如何开始解析所有这些数据。

答案:通过将json文件转换为列表,然后能够将其转换为数据框来解决此问题。谢谢大家的帮助。

    tweets = []
    for line in open('tweets.txt', 'r'):
       tweets.append(json.loads(line))

    df = pd.DataFrame(tweets)

1 个答案:

答案 0 :(得分:1)

您不必将文本文件转换为json即可将其作为pandas数据框读取,只需执行以下操作:

pd.read_json('yourfile.txt')

,它应该可以工作。假设您的格式为:

{"name": "first json"}

而不是:

{"name": "first json"}{"name": "second json"}

但是,如果您确实有第二种格式,则可以使用以下任何一种方法(还有更多方法):

遍历文件-> 跟踪方括号-> 随时创建json对象-> 将它们附加到列表< strong>-> 将列表放入熊猫。

def parseMultipleJSON(lines):
    skip = prev = 0
    data = []
    lines = ''.join(lines)
    for idx, line in enumerate(lines):
        if line == "{":
            skip += 1
        elif line == "}":
            skip -= 1
            if skip == 0:
                json_string = ''.join(lines[prev:idx+1])
                data.append(json.loads(json_string))
                prev = idx+1
    return data

或直接使用split并添加删除的括号:

def parseMultipleJSON2(lines):
    lines = ''.join(lines).split('}{')
    data = []
    for line in lines:
        if line.endswith('}') == False:
            line += '}'
        if line.startswith('{') == False:
            line = '{%s' % line
        data.append(json.loads(line))
    return data

这与第二种解决方案相同,但缩写为:

def parseMultipleJSON3(lines):
    lines = ''.join(lines).split('}{')
    data = [json.loads('%s}' % line) if idx == 0 else json.loads('{%s' % line) if idx == len(lines)-1 else json.loads('{%s}' % line) for idx, line in enumerate(lines)]
    return data

然后,您可以这样呼叫任何您想要选择的呼叫:

import pandas as pd
import json

with open('yourfile.txt','r') as json_file:
    lines = json_file.readlines()
    lines = [line.strip("\n") for line in lines]
    #data = parseMultipleJSON(lines)
    #data = parseMultipleJSON2(lines)
    data = parseMultipleJSON3(lines)

df = pd.DataFrame(data)