标签: apache-spark hadoop2
我有500万条记录,每条记录都是独一无二的。我想在内存中对这500万条记录进行排序。有什么办法吗?在python和R中我们会得到内存问题。在Hadoop中,Spark可以在内存中自行完成。