它有点建筑性的问题。我需要使用Spark和Scala作为主要工具来设计应用程序。我希望尽可能减少人工干预。
我将收到一个带有多个文件的zip文件,这些文件具有不同的结构作为输入,定期间隔,例如每天。我需要使用Spark处理它。转换后需要将数据移动到后端数据库。
想要了解我可以用来设计应用程序的最佳方式。 处理拉链的最佳方法是什么? 是否可以将Spark Streaming视为查看文件频率的选项? 我应该考虑哪些其他选择?
任何指导都会非常明显。
答案 0 :(得分:0)
这是一个广泛的问题,有批量选项和流选项不确定您的确切要求。你可以在这里开始你的研究:https://jaceklaskowski.gitbooks.io/spark-structured-streaming/spark-sql-streaming-FileStreamSource.html