Question

使用python和pandas我想实现以下目标：

我有大约600个json文件，文件格式如下：

User Name: ǝuuǝıɹpɐ\nAll Tags: Delightful Followers\t|\tlibtards\t........|\tExpressionEngine\t|\t\nYour Tag:

我想为所有文件创建一个pandas DataFrame，看起来像这样

User name     All Tags                                       Your tag
ǝuuǝıɹpɐ     Delightful Followers\t|\tlibtards\t....
.             .                        
.             .

我尝试使用以下代码：

 data = pd.read_csv('D:/datasets/edx1/word_cloud/557563.json', sep="\n", header=None)

给了我以下DataFrame

0   User Name: ǝuuǝıɹpɐ
1   All Tags: Delightful Followers\t|\tlibtards\t|...
2   Your Tag:

另外我不确定为什么json文件看起来像这样，在线阅读它说json文件是字典，但它似乎不是这里的情况。

Answer 1

1）迭代文件，例如在输入目录中使用os.listdir()：docs

2）对于每个文件，open（确切的过程取决于您的Py版本）并使用来自 json 模块的json.load()将文件转换为Python字典，{ {3}}。这会将json转换为标准dict。

3）您可以使用DataFrame：docs将这些词典转换为panda from_dict()。

导入文件并转换为pandas

1 个答案: