我是Azure Data Lake和大数据的新手,如果我的问题看起来很愚蠢,我深表歉意。
我一直在研究ADL和ADLA,以开发冷路径数据存储。我有一个Azure Stream Analytics查询,该查询输出到Power Bi以进行实时可视化,另一个查询将.CSV格式的数据存储在数据湖中。
我创建了一个VS项目,在其中创建了与csv文件相对应的数据库,架构和表,并且一个脚本从CSV文件中提取了数据并将其复制到表中以使数据具有某种结构。
我的问题是,如果数据继续存储在文件夹结构定义何时到达数据的csv文件中,那么如何使用新数据更新表。我应该放下桌子重新开始吗,我认为这不是可行的解决方案?
我已经运行了一些脚本,以创建数据库,模式,提取数据并填充表。当然,每当新数据到达时,我都无法运行所有脚本。
注意:我想指出数据库和表在ADLA U-SQL数据库中。
答案 0 :(得分:1)
这是一个非常主观的问题。在继续之前,我建议您阅读很多有关“大数据”和“数据湖”的内容。在该讲座的中间,您可能会找到答案。例如,请参见数据湖的树结构。我的开始参考是:
http://blogs.adatis.co.uk/ustoldfield/post/Shaping-The-Lake-Data-Lake-Framework
https://www.sqlchick.com/entries/2016/7/31/data-lake-use-cases-and-planning
https://www.sqlchick.com/entries/2017/12/30/zones-in-a-data-lake