应用错误收集

我们正在使用Spark 2.0.2（PySpark）对数十亿个事件进行分区和排序以进行下游处理。事件由用户划分，并在按时间戳排序的分区内。事件以Avro格式存储。下游处理是一个Spark（PySpark）应用程序，应该从这种分区和排序中受益。

我想知道下游应用程序如何告诉Spark它正在加载的数据（RDD / Dataframe）已经被分区并在分区内排序。我可以在分区内指定重新分区和排序，我假设Spark会随机排序并排序，因为它不知道数据的布局。这可能很昂贵，因为我们正在谈论数十亿的事件。我想避免这种情况。我怎样才能做到这一点？

谢谢 - Rupesh