我想在Python

时间:2018-02-05 14:42:38

标签: python json parsing twitter tweets

我目前正在使用Twitter ID从Twitter中提取推文。我使用的工具带有我在线下载的数据集(Twitter ID),将用于我的硕士学位论文。该工具获取Twitter ID并从推文中提取信息,将每个推文存储为.TXT文件中的JSON字符串。

下面是我的OneDrive的链接,我有2个文件:

https://1drv.ms/f/s!At39YLF-U90fhJwCdEuzAc2CGLC_fg

1)提取的推文信息,每个信息都作为.txt文件中的JSON字符串 2)提取的Tweet信息,每个都是我认为是.json文件的JSON字符串。我说'相信'的原因是因为我使用的工具会自动创建一个文件,该文件在文件名末尾包含'.json',但格式为.TXT。我只是通过删除'TXT'来重命名该文件。从最后

以下是我编写的代码(虽然很简单,但我在网上寻找替代代码越多,我就越困惑):

import pandas as pd
dftest = pd.read_json('test.json', lines=True)

运行代码时出现以下错误:

ValueError:解码数组值(2)

时发现意外字符

我已经将前几个Tweet数组运行到一个免费的在线JSON解析器中,它确实打破了Tweet的功能我的希望(据我所知,这证实了它们的Tweet数组是JSON格式)。这可以在下面的屏幕截图中看到:

Screenshot of online parser

如果有人能够,我将不胜感激:

1)确认提取的推文实际上是JSON字符串格式 2)确认文件名是否自动保存为'text.json.txt'并从文件名中删除'txt',这是否成为.json文件? 3)建议如何使我的简短Python脚本工作。最终目标是在Dataframe中识别每个Tweet中我想要的功能(例如“created_at”,“text”,“hashtags”,“location”等),这样我就可以将它保存到.csv文件中。

0 个答案:

没有答案