运行没有“run-example”脚本的Spark Kafka wordcount.java示例

时间:2014-03-02 20:26:01

标签: java apache-kafka apache-spark

我正在尝试在Spark中运行单词计数示例,它会从Kafka传输数据。 Source Code Here。但是,我发现Cloudera Spark的分布与孵化器分布略有不同。我没有问题运行火花壳并从那里运行字数计数示例。但是,bin文件夹中没有“运行示例”脚本,这在示例源代码中指出。

* Example:
 *    `./bin/run-example org.apache.spark.streaming.examples.JavaKafkaWordCount local[2]     zoo01,zoo02,
 *    zoo03 my-consumer-group topic1,topic2 1`

我对jar很新,但我知道,要在命令行中运行java程序,需要打包所有依赖项和代码,编译并放入jar文件。然后运行整个jar文件,我想这就是“run-example”代码的作用。

有人能告诉我如何在没有运行示例脚本的情况下运行KafkaWordCount.java示例吗?

这里有类似的question,但我不想每次都在spark-shell中运行java代码。

非常感谢。

的Hadoop: 我有一个由Cloudera Manager管理的Cloudera Hadoop Distribution(CDH 4.6.0-1.cdh4.6.0.p0.26),

火花: 我已经下载了(SPARK 0.9.0-1.cdh4.6.0.p0.50)包裹,还分发并激活了这项服务。

卡夫卡: kafka-0.8.0,我已经下载了源代码并从源代码中提取它。

1 个答案:

答案 0 :(得分:0)

我会使用JavaKafkaWordCount.java built using Maven,将其打包到Jar文件中,然后use spark-submit运行它。