我正在使用mongo-hadoop连接器将RDD编写到MongoDB集合中,如this示例中所述
一切正常。结果将添加到集合中。
但是我想知道有没有办法在执行保存之前清理收藏?我没有在mongo-hadoop文档中找到任何提及,因此可能还没有这样的功能。
然后我想问一些提示,有没有更好的方法然后初始化MongoClient并在Apache Apark工作中手动删除查询?
答案 0 :(得分:1)
要清理任何数据库或集合,请使用该语言的普通MongoDB连接器。
假设您使用Spark with Scala
在执行此操作之前,您可以使用Casbah / Java MongoDB驱动程序并清除集合。
Hadoop连接器用于批量操作中的读写操作。