PySpark:将JSON字符串的RDD保存到MongoDB

时间:2017-07-28 16:53:01

标签: json mongodb pyspark

我想将我的spark数据帧移动到mongoDB,为此我想使用mongoDB连接。

我想出了一个JDS字符串的RDD(例如,应该立即使用pyMongo插入到mongoDB中)。

myRDD.take(1)

'{\n  "language": "FRENCH",\n  "id": 358539,\n  "title": "Effet Tetris",\n  "topics": : [\n    {\n      "topic": "VIDEO_GAMES",\n ...

但是我已经陷入困境,因为我重复并深度嵌套了字段,因此将RDD转换为正确的DataFrame不是一种选择。

将我的RDD转换为仅包含一列(JSON字符串)的DataFrame,然后将其保存到Mongo将提供不同的结构(因为数据框将具有该列的名称,我最终将使用MongoDB

{
   "_id" : ... ,
   "colName" : "myJsonString"
}

这不是我想要的。

有什么建议吗?

0 个答案:

没有答案