使用Apache Spark设计应用程序

时间:2017-08-17 21:45:11

标签: apache-spark scala-2.11

它有点建筑性的问题。我需要使用Spark和Scala作为主要工具来设计应用程序。我希望尽可能减少人工干预。

我将收到一个带有多个文件的zip文件,这些文件具有不同的结构作为输入,定期间隔,例如每天。我需要使用Spark处理它。转换后需要将数据移动到后端数据库。

想要了解我可以用来设计应用程序的最佳方式。 处理拉链的最佳方法是什么? 是否可以将Spark Streaming视为查看文件频率的选项? 我应该考虑哪些其他选择?

任何指导都会非常明显。

1 个答案:

答案 0 :(得分:0)

这是一个广泛的问题,有批量选项和流选项不确定您的确切要求。你可以在这里开始你的研究:https://jaceklaskowski.gitbooks.io/spark-structured-streaming/spark-sql-streaming-FileStreamSource.html