应用错误收集

从蜂巢表中流出的Spark是否可能？

时间：2017-10-08 00:44:32

标签： hive pyspark spark-streaming

我有一个用例

我们有java框架每半小时解析一次从Kinesis到Hive表的实时数据。
我需要访问此配置单元表并在实时附近进行一些处理。延迟一小时，因为我没有权限访问Kinesis流。
一旦在spark中完成处理（最好是pyspark），我必须创建一个新的kinesys流并推送数据。
然后我会使用Splunk并将其拉近实时。

问题是，是否有人使用python从hive中做过火花流？我必须做一个POC，然后做实际的工作。

任何帮助都将受到高度赞赏。

提前致谢!!

1 个答案:

答案 0 :(得分：0)

有两种方法可以解决这个问题：

使用spark-streaming从Kinesis中直接获取消息。这会给你一些实时的东西。
一旦文件进入您的临时区域（您的蜂巢仓库或您的某个HDFS位置），您可以使用spark-streaming for文件进行处理。

请告诉我们哪个approch最适合您。