应用错误收集

我对Big Data很新，目前正在学习Spark。我在我的Windows笔记本电脑上安装了Spark 2.0，并使用Spark Dataframe api和python 3.4创建了一个脚本来查找1个特定列的总和。这是花费太长时间。 5分3秒。
这个文本文件非常大（约500mb）， 240万条记录。
任务管理器显示 100％CPU 消耗和 50％RAM 消耗。
这是我做的：

fdff ffff - fd00 0000 + 1 = 0100 0000 = 2^24 = 2^4 * 2^20 = 16Mbyte [2^20 byte = 1 Mbyte]

我在这里做错了什么？有人能指出我正确的方向吗？

感谢

Spark Dataframe脚本运行速度很慢

0 个答案: