适用于业务流程的Apache Spark?

时间:2018-07-05 13:36:29

标签: apache-spark hadoop bigdata

我了解Spark / Hadooop的大数据功能,但被要求将其用于似乎不太适合的一组流程,并且我需要进行完整性检查。

这些过程在较高级别上是并行的,但是包含固有顺序独立的子过程,这些子过程无法并行化。一个示例就是X个并行的顶层进程启动。每个人使用不同的配置来运行一组有点独立的子流程:

  • 依次下载一组XML
  • 依次验证每个XML
  • 按顺序轻松处理每个XML
  • 依次加载到数据存储中

该处理包含一些转换,但就大数据而言却不多。该处理可能是有益的一步,但仍然必须按顺序完成一个流程。

在我看来,这似乎不是大数据。实际上,这似乎是对该平台的完全误用。在这种情况下,唯一的好处可能是出于支持目的而合并多个平台,但是总的来说,火花/混合式生态系统无法为此类业务流程带来任何收益,对吧?

还是我疯了?

1 个答案:

答案 0 :(得分:0)

在我看来,您的问题确实取决于:

  1. 数据规模
  2. 如果您真的不能并行执行(加载和验证xml听起来像是并行的事情,但您对我的了解会更多
  3. 如果每次都需要执行所有过程,或者部分过程需要一次执行。

我的意思是:如果该过程的很大一部分是顺序的(并且需要针对每个火花作业运行而不是一次)并且瓶颈在那里,那么听起来您是正确的,并且启动时间+复杂性的Spark是不使用它的充分理由。 但是如果要求您使用Spark,也许有充分的理由。