我想将我的spark数据帧移动到mongoDB,为此我想使用mongoDB连接。
我想出了一个JDS字符串的RDD(例如,应该立即使用pyMongo插入到mongoDB中)。
myRDD.take(1)
'{\n "language": "FRENCH",\n "id": 358539,\n "title": "Effet Tetris",\n "topics": : [\n {\n "topic": "VIDEO_GAMES",\n ...
但是我已经陷入困境,因为我重复并深度嵌套了字段,因此将RDD转换为正确的DataFrame不是一种选择。
将我的RDD转换为仅包含一列(JSON字符串)的DataFrame,然后将其保存到Mongo将提供不同的结构(因为数据框将具有该列的名称,我最终将使用MongoDB
{
"_id" : ... ,
"colName" : "myJsonString"
}
这不是我想要的。
有什么建议吗?