我正在处理Azure Databricks中的大量输入文件。我的最终数据框大约有9800万行。
我需要将其从Databricks导出,以便可以将其导入Power BI进行报告。
如果我只是简单地将数据帧写入例如,Power BI当前似乎没有可以解释分区性质的连接器。 CSV。使用合并或转换为pandas数据框并导出为CSV的速度非常慢,并且易于在群集上进行资源限制。
我已经尝试了上述两种方法,但收效甚微。
以Power BI可以理解的方式,我还需要哪些其他选择来有效地导出数据框?我不介意这是从处理的Databricks方面还是Power Query方面进行的。
答案 0 :(得分:0)
PowerBI具有用于数据块的现有连接器。我们将CSV数据转换为已分区的databricks增量格式的表。我们拥有数十亿条记录,而PowerBI可以对其进行完善。
确保您按照此处的步骤将PowerBI连接到databricks集群: https://docs.databricks.com/user-guide/bi/power-bi.html#connect-power-bi-desktop-to-a-databricks-cluster