Question

我正在研究大数据csv数据集。我需要使用pyspark在jupyter-notebook上阅读它。我的数据大约有4+百万条记录（540000行和7列。）我该怎么做才能显示所有打印的数据集？

我尝试使用pandas数据框，但是它确实显示错误，如所附的屏幕截图所示，然后我尝试更改它在解析时提供SyntaxError：意外EOF的编码类型。你能帮我吗？

enter image description here

Answer 1

对于最后一个屏幕截图，我认为您缺少使用处理程序with在python中读取文件的方式。如果您的数据位于json文件中，则可以按以下方式读取数据：

with open('data_file.json', encoding='utf-8') as data_file:
    data = json.loads(data_file.read())

请注意，它是'data_file.json'而不是data_file.json。 csv示例的日志保持不变

如果在csv文件中，则非常有用：

file = pd.read_csv('data_file.csv')

尝试在csv读取步骤中删除编码参数即使您使用pyspark，我也不建议使用笔记本读取如此大的文件。考虑使用该文件的一部分在笔记本中可视化，然后切换到另一个平台。

希望有帮助