我们的客户遇到一个普遍的问题,即许多具有不同技术堆栈的分布式数据存储。最终的结果是将某些数据部分放在一起,以通过Microsoft Power BI生成详细的报告。
此方法是否有标准模式?我最初的想法是
- Azure数据工厂尽可能将数据迁移到Azure数据湖中。
- 在不可能的情况下,自动将数据提取和转储到Azure Data Lake中。
- User Power BI Desktop连接到csv数据集以生成模型和报告(同时执行大量转换)
- 发布到PowerBI服务以在用户之间共享
问题...
- 我们应该使用Data Factory(或其他ETL)中的DataFlows进行转换还是继续使用PowerBI中的查询编辑器
- 在PowerBI Desktop中连接许多数据集并执行大量转换活动是否存在性能问题?
- 为了用新数据更新报告,是否只是在数据湖中覆盖以前的CSV文件并刷新报告的情况?