我在U-SQL中创建了一个Managed表,并将数据加载到表中。当我尝试从中读取时,其显示状态“准备”约3小时并由纱线取消。
我也试过了Rebuild table命令和相同的场景。
它有审计数据,当我从Data湖处理文件时,我将审计细节保存到该表中。比如文件名,位置,记录数。到目前为止,我已经处理了大约36,000个文件。当我尝试使用最终审核报告时,它会继续准备3小时并被Yarn取消
答案 0 :(得分:2)
请提供更多信息:
<强>更新强>:
根据&#34;处理大约36k文件&#34;的声明,我假设您将每个文件单独插入表中。这不推荐使用,导致表碎片化,这反过来会使代码生成过程中的准备阶段耗尽。由于您已经拥有36k表片段,因此您应该删除该表,并使用上面提到的快速文件集预览功能,通过EXTRACT对文件集中指定的36k文件执行单个INSERT。这样你就可以避免这个问题。
加载数据后,需要重建表或分区以避免以后碎片化。
我们正在努力提高可扩展性,并在重建碎片表方面添加更多功能,但它们最早将在今年下半年之前推出。因此,避免这种碎片非常重要。