应用错误收集

是否可以使用spark的jdbc驱动程序将apache spark与jasper集成？

时间：2015-02-20 21:01:01

标签： hadoop jasper-reports apache-spark spark-streaming

我们想使用apache spark进行实时分析？我们目前使用hive / MR进行数据处理，使用mysqlsql存储聚合结果，使用jasper报告进行分析？由于mysql的可伸缩性问题，这种方法远非理想。我们正在探索在hdfs或cassandra之上运行的apache spark，唯一的问题是如果有一种方法可以让spark与jasper服务器集成吗？如果没有与spark一起使用的其他UI选项？

1 个答案:

答案 0 :(得分：2)

我找到答案并想到共享，如果你使用带有spark的hive Metastore你可以将RDD作为hive表持久化，一旦你完成任何谈论hive的客户端：jdbc2协议可以使用spark＆运行hive或sql之类的查询＃39;执行引擎。这些是步骤 - 1）配置spark以使用mysql作为Metastore数据库。 2）在spark conf目录中复制hive-site.xml，指向mysql数据库。 3）启动thrift服务，您可以使用$ SPARK_HOME / sbin / start-thrift.sh执行此操作，如果成功启动它将侦听端口10000。 4）使用像beeline这样的客户端进行测试，该客户端位于$ SPARK_HOME / bin目录下。 5）从beeline使用此url - ！connect hive：jdbc2：// localhost 10000（无用户名或密码） 6）运行任何配置单元创建或选择查询。 7）如果它运行，恭喜!! ，使用与jasper相同的url（！connect hive：jdbc2：// localhost 10000，用ip替换localhost），使用hive：jdbc2。