当我尝试使用选项 replace document
false 从spark到mongo编写大量文档时。编写时出现以下异常:-
org.apache.spark.SparkException: Job aborted due to stage failure: Task 28 in stage 18.0 failed 4 times, most recent failure: Lost task 28.3 in stage 18.0 (TID 275, 10.80.102.83, executor 2): com.mongodb.MongoBulkWriteException: Bulk write operation error on server 10.80.100.73:27017. Write errors: [BulkWriteError{index=0, code=9, message=''$set' is empty. You must specify a field like so: {$set: {<field>: ...}}', details={ }}].
环境
mongo spark连接器版本:- 2.2.2
火花版本:- 2.3.1
编程语言:- java
答案 0 :(得分:0)
在处理火花时,您需要尝试的一件事是探索数据框(数据框中可能有一些值,不允许整个操作通过)。
作为例外情况,写配置中的选项“替换文档为假”在内部调用mongo的 $ set 方法(每行 在数据框中 )。
$ set 方法不将null作为参数 ,这就是为什么spark写入操作遇到空值时都会失败的原因。
解决方案:-在写入mongo之前,从数据框中删除空值
dataFrame.na().drop()