我对Big Data很新,目前正在学习Spark。我在我的Windows笔记本电脑上安装了Spark 2.0,并使用Spark Dataframe api和python 3.4创建了一个脚本来查找1个特定列的总和。这是花费太长时间。 5分3秒。
这个文本文件非常大(约500mb), 240万条记录。
任务管理器显示 100%CPU 消耗和 50%RAM 消耗。
这是我做的:
fdff ffff - fd00 0000 + 1 = 0100 0000 = 2^24 = 2^4 * 2^20 = 16Mbyte [2^20 byte = 1 Mbyte]
我在这里做错了什么?有人能指出我正确的方向吗?
感谢