mapr流与火花流兼容性

时间:2017-05-22 21:25:50

标签: apache-spark pyspark apache-kafka mapr

mapr流是否与pyspark一起使用。我下载了必要的jar并尝试测试以下示例。 https://github.com/ihijazi/data-engineering/blob/master/Kafka-MapR-DB-HBase.py 请告知我缺少的东西。

[mapr@ip-10-0-0-85 centos]$ /opt/mapr/spark/spark-2.1.0/bin/spark-
submit --jars /opt/mapr/spark/spark-2.1.0/jars/spark-streaming_2.10-
2.1.0.jar /home/mapr/kafka.py
Traceback (most recent call last):
File "/home/mapr/kafka.py", line 7, in <module>
from pyspark.streaming.kafka import *;
ImportError: No module named kafka

2 个答案:

答案 0 :(得分:1)

根据Issam Hijazi的调查结果,pyspark未编译为与MapR Streams一起使用(因为它不使用v09)。但是,他还报告说下载了最新版本http://package.mapr.com/releases/ecosystem-5.x/redhat/mapr-spark-1.6.1.201612010646-1.noarch.rpm解决了这个问题。请参阅详细信息:https://community.mapr.com/message/54864-re-mapr-streams-via-pyspark-exception?commentID=54864#comment-54864

答案 1 :(得分:0)

进入spark文件夹

cd spark/python/pyspark/streaming

搜索您是否拥有kafka或kafka08或kafka09并在您的代码中的import语句中进行相应更改