导入文件并转换为pandas

时间:2017-08-31 00:17:55

标签: python json pandas dataframe

使用python和pandas我想实现以下目标:

我有大约600个json文件,文件格式如下:

User Name: ǝuuǝıɹpɐ\nAll Tags: Delightful Followers\t|\tlibtards\t........|\tExpressionEngine\t|\t\nYour Tag:

我想为所有文件创建一个pandas DataFrame,看起来像这样

User name     All Tags                                       Your tag
ǝuuǝıɹpɐ     Delightful Followers\t|\tlibtards\t....
.             .                        
.             .

我尝试使用以下代码:

 data = pd.read_csv('D:/datasets/edx1/word_cloud/557563.json', sep="\n", header=None)

给了我以下DataFrame

0   User Name: ǝuuǝıɹpɐ
1   All Tags: Delightful Followers\t|\tlibtards\t|...
2   Your Tag:

另外我不确定为什么json文件看起来像这样,在线阅读它说json文件是字典,但它似乎不是这里的情况。

1 个答案:

答案 0 :(得分:1)

1)迭代文件,例如在输入目录中使用os.listdir()docs

2)对于每个文件,open(确切的过程取决于您的Py版本)并使用来自 json 模块的json.load()将文件转换为Python字典,{ {3}}。这会将json转换为标准dict

3)您可以使用DataFramedocs将这些词典转换为panda from_dict()