我们在MongoDB中存储了50GB(100万个文档)的原始数据。我必须转换/处理数据并将它们传输到另一个数据库。
阅读,处理和写入大约需要30分钟,但我们需要在几秒钟或几分钟内完成。
我应该尽快读取数据,在几秒钟内迭代所有文档?
答案 0 :(得分:0)
Apache Spark应该适用于您的用例。 This应该可以帮助您开始使用Spark。
This和this可以帮助您在Spark上开始使用MongoDb。
现在,一旦你的spark应用程序启动,你需要通过在某个集群上运行来扩展它。 This应该帮助你进行冒险。