我在Data Lake处理大约4000个csv文件的输入文件集,当作业准备时间超过25分钟时,作业失败并出现脚本编译错误
我们要求批量处理超过4000个csv文件,我听说微软有一个预览解决方案来处理输入文件集大小大到30,000个文件
答案 0 :(得分:2)
目前这是opt-in preview feature。请使用"联系我们"此链接部分与ADLA支持团队联系。
输入文件集可以更好地缩放数量级别(需要选择加入) https://github.com/Azure/AzureDataLake/blob/master/docs/Release_Notes/2017/2017_03_09/USQL_Release_Notes_2017_03_09.md
作为替代,您可以考虑使用Azure SQL数据仓库和Polybase来导入和存储速度非常快的平面文件。然后,ADLA可以使用federated tables连接到Azure SQL数据仓库。这使您能够在数据所在的位置查询数据"并倾向于使用逻辑数据湖的概念,该湖使用Azure SQL数据仓库和Azure数据湖分析(ADLA)这两个产品。权衡是一种更复杂的架构/设置,但Polybase针对快速平面文件导入进行了优化。只是一个想法。
NB 我不为微软工作,我只是复制和粘贴链接:)