我了解Spark / Hadooop的大数据功能,但被要求将其用于似乎不太适合的一组流程,并且我需要进行完整性检查。
这些过程在较高级别上是并行的,但是包含固有顺序独立的子过程,这些子过程无法并行化。一个示例就是X个并行的顶层进程启动。每个人使用不同的配置来运行一组有点独立的子流程:
该处理包含一些转换,但就大数据而言却不多。该处理可能是有益的一步,但仍然必须按顺序完成一个流程。
在我看来,这似乎不是大数据。实际上,这似乎是对该平台的完全误用。在这种情况下,唯一的好处可能是出于支持目的而合并多个平台,但是总的来说,火花/混合式生态系统无法为此类业务流程带来任何收益,对吧?
还是我疯了?
答案 0 :(得分:0)
在我看来,您的问题确实取决于:
我的意思是:如果该过程的很大一部分是顺序的(并且需要针对每个火花作业运行而不是一次)并且瓶颈在那里,那么听起来您是正确的,并且启动时间+复杂性的Spark是不使用它的充分理由。 但是如果要求您使用Spark,也许有充分的理由。