应用错误收集

是否有内置方式将DataFrame定义为一组分区路径（每个分区路径包含一个或多个文件），请使用{ {1}}作为一组所谓的'＃34;突变＆＃34;的基础。查询被定义为单独的DataFrame，并将生成的DataFrame分隔为相同的列，仅写入＆＃34;已更改＆＃34;分区（即只有原始DataFrame与结果DataFrame之间数据不同的分区？）

这将是＆＃34;尺寸＆＃34;当然是数据。

重点是通过重新使用尚未更改的分区文件来减少总存储量。也许存储足够便宜，这是毫无意义的。不过，最好知道。

显然，通过自己指定一系列变换可以做到这一点：

DataFrame
{original DataFrame} -> o
{resulting DataFrame -> r
{*, COUNT(o.*) GROUP BY *} -> o2
{*, COUNT(r.*) GROUP BY *} -> r2

我无法判断一般情况下是否会有任何改组。鉴于{DISTINCT [partition columns] FROM o2 FULL JOIN r2 ON [partition columns] WHERE o2.* IS NULL OR r2.* IS NULL}位于分区列上，并且原始JOIN和DataFrame如何被分区，可能没有。

Apache Spark - 仅写入已更改的分区

0 个答案: