如何在Databricks Spark中存储旧的流数据?

时间:2018-03-30 11:19:56

标签: scala databricks

我是Spark Streaming和Azure Databricks的新手。我阅读了许多关于火花如何工作和处理数据等的文章。但旧数据呢?如果spark对交互式数据起作用,那么我的2周大或2个月的旧数据可以Spark持有吗?或者假设我必须在转换后移动数据,我应该移动并清除火花存储器?它只会存储在SSD中吗?

1 个答案:

答案 0 :(得分:0)

Azure Databricks支持多个数据存储(作为源和作为静态数据的目标)。大数据的良好实践是安装Azure Data Lake Store。如果您有流式数据源(如Kafka或EventHubs),您可以将其用作接收器,并将其重新用于进一步分析。

有关支持的数据源,请参阅https://docs.azuredatabricks.net/spark/latest/data-sources/index.html