应用错误收集

我想将我的spark数据帧移动到mongoDB，为此我想使用mongoDB连接。

我想出了一个JDS字符串的RDD（例如，应该立即使用pyMongo插入到mongoDB中）。

myRDD.take(1)

'{\n  "language": "FRENCH",\n  "id": 358539,\n  "title": "Effet Tetris",\n  "topics": : [\n    {\n      "topic": "VIDEO_GAMES",\n ...

但是我已经陷入困境，因为我重复并深度嵌套了字段，因此将RDD转换为正确的DataFrame不是一种选择。

将我的RDD转换为仅包含一列（JSON字符串）的DataFrame，然后将其保存到Mongo将提供不同的结构（因为数据框将具有该列的名称，我最终将使用MongoDB

{
   "_id" : ... ,
   "colName" : "myJsonString"
}

这不是我想要的。

有什么建议吗？