如何使用Scala 2.11将Kafka作为Apache Spark的流运行?

时间:2015-05-05 07:53:45

标签: scala apache-spark apache-kafka

我还没有能够为Scaf 2.11的Kafka找到任何任何Spark Streaming集成版本。这里有一个http://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka_2.10可用,但它是2.10

有人能指点我2.11版吗?

1 个答案:

答案 0 :(得分:2)

特定于您的问题:

现在对Scala 2.11运行Spark Kafka是不可行的(Spark-1.3

从源代码构建的一般方法:

如果没有可用的预构建版本,您可以自己构建spark并通过指定一些构建参数来满足您的需求。

详细的构建过程可以找到:Building Spark

简而言之,如果针对scala-2.10进行构建,则只需要两个步骤:

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

mvn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package

您应该在第二个命令

中指定适合您情况的配置文件或属性

请注意Building for Scala 2.11上的部分Building Spark状态:

  

要生成使用Scala 2.11编译的Spark包,请使用-Dscala-2.11属性:

     

dev/change-version-to-2.11.sh
  mvn -Pyarn -Phadoop-2.4 -Dscala-2.11 -DskipTests clean package

     

Spark中的Scala 2.11支持不支持一些功能,因为依赖本身并不是Scala 2.11。 具体来说,Scala 2.11版本尚不支持Spark的外部Kafka库和JDBC组件。