csv - 查询20gb的Spark内存要求

在深入了解实际编码之前，我试图了解Spark周围的物流。我的服务器日志分为10 csv，每个2GB。我正在寻找一种方法来提取一些数据，例如每台服务器在30分钟内发生了多少次故障。（日志包含来自多个服务器的条目，即时间和服务器上没有任何预定义的顺序）

这是我用火花做的事吗？如果是，这意味着我需要一个20 GB以上RAM的盒子？当我在Spark中使用RDD进行操作时，是否考虑了完整的数据集？例如。按时间戳和服务器ID排序的操作将执行到完整的20GB数据集？

谢谢！