如何使用pyspark在jupyter笔记本中显示我的csv数据文件

时间:2019-04-14 10:34:14

标签: python pyspark jupyter-notebook

我正在研究大数据csv数据集。我需要使用pyspark在jupyter-notebook上阅读它。我的数据大约有4+百万条记录(540000行和7列。)我该怎么做才能显示所有打印的数据集?

我尝试使用pandas数据框,但是它确实显示错误,如所附的屏幕截图所示,然后我尝试更改它在解析时提供SyntaxError:意外EOF的编码类型。你能帮我吗?

enter image description here

enter image description here

enter image description here

enter image description here

1 个答案:

答案 0 :(得分:0)

对于最后一个屏幕截图,我认为您缺少使用处理程序with在python中读取文件的方式。如果您的数据位于json文件中,则可以按以下方式读取数据:

with open('data_file.json', encoding='utf-8') as data_file:
    data = json.loads(data_file.read())

请注意,它是'data_file.json'而不是data_file.json。 csv示例的日志保持不变

如果在csv文件中,则非常有用:

file = pd.read_csv('data_file.csv')

尝试在csv读取步骤中删除编码参数 即使您使用pyspark,我也不建议使用笔记本读取如此大的文件。考虑使用该文件的一部分在笔记本中可视化,然后切换到另一个平台。

希望有帮助