在Apache Spark作业中使用mongo-hadoop连接器编写结果之前清理MongoDB集合

时间:2015-04-20 09:05:50

标签: java mongodb apache-spark

我正在使用mongo-hadoop连接器将RDD编写到MongoDB集合中,如this示例中所述

一切正常。结果将添加到集合中。

但是我想知道有没有办法在执行保存之前清理收藏?我没有在mongo-hadoop文档中找到任何提及,因此可能还没有这样的功能。

然后我想问一些提示,有没有更好的方法然后初始化MongoClient并在Apache Apark工作中手动删除查询?

1 个答案:

答案 0 :(得分:1)

要清理任何数据库或集合,请使用该语言的普通MongoDB连接器。

假设您使用Spark with Scala

在执行此操作之前,您可以使用Casbah / Java MongoDB驱动程序并清除集合。

Hadoop连接器用于批量操作中的读写操作。