模式错误的Apache Spark上的Readstream重试1830次

时间:2018-11-19 18:01:53

标签: apache-spark apache-spark-sql spark-structured-streaming

在Spark结构化流传输中,当来自S3的传入记录与我用.schema(..)强制执行的模式不匹配,并且如果记录的大小很大(我的是397KB),则该记录将被重试1830次,经过多次测试。有人注意到这种奇怪的行为吗?

1 个答案:

答案 0 :(得分:0)

在我的情况下,s3对象是一个json数组,事实证明spark-s3 json读取器将数组的每个条目作为spark数据帧中的单个记录进行处理。因此s3对象有1830个项目,这就是为什么对有错误的1830个项目重复相同的s3对象的原因。但是,我找不到有关此行为的任何官方文档。