Question

我正在尝试在Spark中运行单词计数示例，它会从Kafka传输数据。 Source Code Here。但是，我发现Cloudera Spark的分布与孵化器分布略有不同。我没有问题运行火花壳并从那里运行字数计数示例。但是，bin文件夹中没有“运行示例”脚本，这在示例源代码中指出。

* Example:
 *    `./bin/run-example org.apache.spark.streaming.examples.JavaKafkaWordCount local[2]     zoo01,zoo02,
 *    zoo03 my-consumer-group topic1,topic2 1`

我对jar很新，但我知道，要在命令行中运行java程序，需要打包所有依赖项和代码，编译并放入jar文件。然后运行整个jar文件，我想这就是“run-example”代码的作用。

有人能告诉我如何在没有运行示例脚本的情况下运行KafkaWordCount.java示例吗？

这里有类似的question，但我不想每次都在spark-shell中运行java代码。

非常感谢。

的Hadoop：我有一个由Cloudera Manager管理的Cloudera Hadoop Distribution（CDH 4.6.0-1.cdh4.6.0.p0.26），

火花：我已经下载了（SPARK 0.9.0-1.cdh4.6.0.p0.50）包裹，还分发并激活了这项服务。

卡夫卡： kafka-0.8.0，我已经下载了源代码并从源代码中提取它。

Answer 1

我会使用JavaKafkaWordCount.java built using Maven，将其打包到Jar文件中，然后use spark-submit运行它。

运行没有“run-example”脚本的Spark Kafka wordcount.java示例

1 个答案: