标签: csv apache-spark memory
在深入了解实际编码之前,我试图了解Spark周围的物流。 我的服务器日志分为10 csv,每个2GB。 我正在寻找一种方法来提取一些数据,例如每台服务器在30分钟内发生了多少次故障。 (日志包含来自多个服务器的条目,即时间和服务器上没有任何预定义的顺序)
这是我用火花做的事吗? 如果是,这意味着我需要一个20 GB以上RAM的盒子? 当我在Spark中使用RDD进行操作时,是否考虑了完整的数据集?例如。按时间戳和服务器ID排序的操作将执行到完整的20GB数据集?
谢谢!