应用错误收集

使用Apache Spark设计应用程序

时间：2017-08-17 21:45:11

标签： apache-spark scala-2.11

它有点建筑性的问题。我需要使用Spark和Scala作为主要工具来设计应用程序。我希望尽可能减少人工干预。

我将收到一个带有多个文件的zip文件，这些文件具有不同的结构作为输入，定期间隔，例如每天。我需要使用Spark处理它。转换后需要将数据移动到后端数据库。

想要了解我可以用来设计应用程序的最佳方式。处理拉链的最佳方法是什么？是否可以将Spark Streaming视为查看文件频率的选项？我应该考虑哪些其他选择？

任何指导都会非常明显。

1 个答案:

答案 0 :(得分：0)

这是一个广泛的问题，有批量选项和流选项不确定您的确切要求。你可以在这里开始你的研究：https://jaceklaskowski.gitbooks.io/spark-structured-streaming/spark-sql-streaming-FileStreamSource.html