Spark Dataframe脚本运行速度很慢

时间:2017-02-22 18:32:10

标签: python apache-spark pyspark spark-dataframe

我对Big Data很新,目前正在学习Spark。我在我的Windows笔记本电脑上安装了Spark 2.0,并使用Spark Dataframe api和python 3.4创建了一个脚本来查找1个特定列的总和。这是花费太长时间。 5分3秒
这个文本文件非常大(约500mb), 240万条记录
任务管理器显示 100%CPU 消耗和 50%RAM 消耗。
这是我做的:

fdff ffff - fd00 0000 + 1 = 0100 0000 = 2^24 = 2^4 * 2^20 = 16Mbyte [2^20 byte = 1 Mbyte] 

我在这里做错了什么?有人能指出我正确的方向吗?

感谢

0 个答案:

没有答案