MongoDB和Spark:mongo-hadoop和mongo-spark之间的区别

时间:2018-07-10 05:12:28

标签: mongodb apache-spark hadoop pymongo

mongo-hadoop和mongo-spark连接器有什么区别?pymongo是否仅适用于mango-hadoop?

pymongo是否仅用于mongo-hadoop?

1 个答案:

答案 0 :(得分:1)

用于Hadoo的 MongoDB连接器 p是一个库,该库允许MongoDB(或数据格式为BSON的备份文件)用作Hadoop MapReduce任务的输入源或输出目标。它旨在提供更大的灵活性和性能,并使MongoDB中的数据与Hadoop生态系统的其他部分轻松集成,包括以下内容:

  1. 火花
  2. MapReduce
  3. Hadoop流
  4. 蜂巢
  5. 水槽

用于Spark的MongoDB连接器提供了MongoDB和Apache Spark之间的集成。

使用连接器,您可以访问所有与MongoDB数据集一起使用的Spark库:用于SQL分析(受益于自动模式推断),流,机器学习和图形API的数据集。您还可以将连接器与Spark Shell配合使用。

PyMongo 不提供对PySpark的任何支持,但是Spark连接器可以:

https://docs.mongodb.com/spark-connector/master/python-api/