从蜂巢表中流出的Spark是否可能?

时间:2017-10-08 00:44:32

标签: hive pyspark spark-streaming

我有一个用例

  1. 我们有java框架每半小时解析一次从Kinesis到Hive表的实时数据。
  2. 我需要访问此配置单元表并在实时附近进行一些处理。延迟一小时,因为我没有权限访问Kinesis流。
  3. 一旦在spark中完成处理(最好是pyspark),我必须创建一个新的kinesys流并推送数据。
  4. 然后我会使用Splunk并将其拉近实时。
  5. 问题是,是否有人使用python从hive中做过火花流?我必须做一个POC,然后做实际的工作。

    任何帮助都将受到高度赞赏。

    提前致谢!!

1 个答案:

答案 0 :(得分:0)

有两种方法可以解决这个问题:

  1. 使用spark-streaming从Kinesis中直接获取消息。这会给你一些实时的东西。

  2. 一旦文件进入您的临时区域(您的蜂巢仓库或您的某个HDFS位置),您可以使用spark-streaming for文件进行处理。

  3. 请告诉我们哪个approch最适合您。