Question

我目前正在使用Twitter ID从Twitter中提取推文。我使用的工具带有我在线下载的数据集（Twitter ID），将用于我的硕士学位论文。该工具获取Twitter ID并从推文中提取信息，将每个推文存储为.TXT文件中的JSON字符串。

下面是我的OneDrive的链接，我有2个文件：

https://1drv.ms/f/s!At39YLF-U90fhJwCdEuzAc2CGLC_fg

1）提取的推文信息，每个信息都作为.txt文件中的JSON字符串 2）提取的Tweet信息，每个都是我认为是.json文件的JSON字符串。我说'相信'的原因是因为我使用的工具会自动创建一个文件，该文件在文件名末尾包含'.json'，但格式为.TXT。我只是通过删除'TXT'来重命名该文件。从最后

以下是我编写的代码（虽然很简单，但我在网上寻找替代代码越多，我就越困惑）：

import pandas as pd
dftest = pd.read_json('test.json', lines=True)

运行代码时出现以下错误：

ValueError：解码数组值（2）

时发现意外字符

我已经将前几个Tweet数组运行到一个免费的在线JSON解析器中，它确实打破了Tweet的功能我的希望（据我所知，这证实了它们的Tweet数组是JSON格式）。这可以在下面的屏幕截图中看到：

如果有人能够，我将不胜感激：

1）确认提取的推文实际上是JSON字符串格式 2）确认文件名是否自动保存为'text.json.txt'并从文件名中删除'txt'，这是否成为.json文件？ 3）建议如何使我的简短Python脚本工作。最终目标是在Dataframe中识别每个Tweet中我想要的功能（例如“created_at”，“text”，“hashtags”，“location”等），这样我就可以将它保存到.csv文件中。

我想在Python

0 个答案: