我们想使用apache spark进行实时分析?我们目前使用hive / MR进行数据处理,使用mysqlsql存储聚合结果,使用jasper报告进行分析?由于mysql的可伸缩性问题,这种方法远非理想。我们正在探索在hdfs或cassandra之上运行的apache spark,唯一的问题是如果有一种方法可以让spark与jasper服务器集成吗?如果没有与spark一起使用的其他UI选项?
答案 0 :(得分:2)
我找到答案并想到共享,如果你使用带有spark的hive Metastore你可以将RDD作为hive表持久化,一旦你完成任何谈论hive的客户端:jdbc2协议可以使用spark&运行hive或sql之类的查询#39;执行引擎。 这些是步骤 - 1)配置spark以使用mysql作为Metastore数据库。 2)在spark conf目录中复制hive-site.xml,指向mysql数据库。 3)启动thrift服务,您可以使用$ SPARK_HOME / sbin / start-thrift.sh执行此操作,如果成功启动它将侦听端口10000。 4)使用像beeline这样的客户端进行测试,该客户端位于$ SPARK_HOME / bin目录下。 5)从beeline使用此url - !connect hive:jdbc2:// localhost 10000(无用户名或密码) 6)运行任何配置单元创建或选择查询。 7)如果它运行,恭喜!! ,使用与jasper相同的url(!connect hive:jdbc2:// localhost 10000,用ip替换localhost),使用hive:jdbc2。