Spark Mongo连接器:在MongoDB连接中仅Upup一个属性

时间:2018-05-30 14:15:00

标签: python mongodb apache-spark upsert

假设我有以下Mongo文档:

{
 "_id":1, 
 "age": 10,
 "foo": 20
}

以及以下Spark DataFrame df

_id | val
 1  | 'a'
 2  | 'b'

现在我想将数据框中的val附加到Mongo文档...

使用MongoDB Spark connector,我可以通过“_id”追加使用默认upserting 逻辑,这意味着如果Spark数据帧和Mongo文档中的“_id”匹配,Mongo连接器将不会创建一个新文档,而是更新旧文档。

但是!更新基本上表现得像 replace - 如果我执行以下操作:

df
.write.format("com.mongodb.spark.sql.DefaultSource")
.mode("append")
.option('spark.mongodb.output.uri','mongodb://mongo_server:27017/testdb.test_collection')
.save()

该系列将如下所示:

[   
    {
     "_id":1, 
     "val": 'a'
    },
   {
     "_id":2, 
     "val':'b' 
    }
]

我希望得到这个:

[   
    {
     "_id":1, 
     "age": 10,
     "foo": 20
     "val": 'a'
    },
   {
     "_id":2, 
     "val':'b' 
    }
]

我的问题是

  • 是否有办法(某些选项)使Spark连接器的行为方式 我希望它表现得好吗?

  • 当然,我可以先阅读Mongo到Spark的文件,充实 他们使用“val”属性并将其写回/追加到Mongo。什么是此操作的I / O?它是一个满载(阅读所有文件然后 替换所有属性)或者它有点聪明(比如读全部 文档但仅附加“val”属性,而不是 替换整个文件)?

1 个答案:

答案 0 :(得分:2)

  

是否有办法(某些选项)使Spark连接器的行为与我希望它的行为相同?

是的,您可以将replaceDocument设置为false。例如,在Python中使用MongoDB connector for Spark v2.2.2和Apache Spark v2.3:

df = sqlContext.read.format("com.mongodb.spark.sql.DefaultSource")
               .option("spark.mongodb.input.uri", "mongodb://host101:27017/dbName.collName").load()
df.first() 
> Row(_id=1.0, age=10.0, foo=20.0)

# Create a dataframe 
d = {'_id': [1, 2], 'val':['a', 'b']}
inputdf = pd.DataFrame(data=d) 
sparkdf = sqlContext.createDataFrame(inputdf)

# Write to Spark 
sparkdf.write.format("com.mongodb.spark.sql.DefaultSource")
             .mode("append").option("spark.mongodb.output.uri", "mongodb://host101:27017/dbName.collName")
             .option("replaceDocument", "false")
             .save()

# Result 
+---+----+----+---+
|_id| age| foo|val|
+---+----+----+---+
|1.0|10.0|20.0|  a|
|2.0|null|null|  b|
+---+----+----+---+