我有一个用例,我在应用服务器内启动本地spark(嵌入式),而不是去火花休息作业服务器或内核。因为前者(嵌入式火花)与其他产品相比具有非常低的延迟。我对
感兴趣P.S。低延迟是这里的首要任务。
编辑:大多数情况下正在处理的数据大小将小于100mb。
答案 0 :(得分:2)
我认为这根本不是一个缺点。如果您查看Spark项目本身内Hive Thriftserver的实现,他们还会在Hive Server进程中管理SQLContext
等。如果数据量很小并且驱动程序可以轻松处理,则尤其如此。所以我也会看到这是一个提示,这对于生产使用是可以的。
但我完全同意,关于BigData管道信息背后缺乏如何将Spark集成到面向交互式客户的应用程序中的文档或建议。