应用错误收集

模式错误的Apache Spark上的Readstream重试1830次

时间：2018-11-19 18:01:53

标签： apache-spark apache-spark-sql spark-structured-streaming

在Spark结构化流传输中，当来自S3的传入记录与我用.schema(..)强制执行的模式不匹配，并且如果记录的大小很大（我的是397KB），则该记录将被重试1830次，经过多次测试。有人注意到这种奇怪的行为吗？

1 个答案:

答案 0 :(得分：0)

在我的情况下，s3对象是一个json数组，事实证明spark-s3 json读取器将数组的每个条目作为spark数据帧中的单个记录进行处理。因此s3对象有1830个项目，这就是为什么对有错误的1830个项目重复相同的s3对象的原因。但是，我找不到有关此行为的任何官方文档。