我们正在使用Spark 2.0.2(PySpark)对数十亿个事件进行分区和排序以进行下游处理。事件由用户划分,并在按时间戳排序的分区内。事件以Avro格式存储。下游处理是一个Spark(PySpark)应用程序,应该从这种分区和排序中受益。
我想知道下游应用程序如何告诉Spark它正在加载的数据(RDD / Dataframe)已经被分区并在分区内排序。我可以在分区内指定重新分区和排序,我假设Spark会随机排序并排序,因为它不知道数据的布局。这可能很昂贵,因为我们正在谈论数十亿的事件。我想避免这种情况。我怎样才能做到这一点?
谢谢 - Rupesh