我们在Azure Data Lake Store中有几个使用.NET API的Append方法创建的大型CSV文件。最近,出于性能原因,我们切换到ConcurrentAppend。由于ConcurrentAppend和Append不能互换使用,因此交换机要求我们为文件创建一个新的文件夹结构,以确保ConcurrentAppend永远不会访问使用Append创建的任何文件。
但是,我们的下游应用程序需要从交换机之前和之后加载所有数据。我们想要加入文件(使用PowerShell SDK Join-AzureRmDataLakeStoreItem cmdlet)而不是更改我们的应用程序,但是文档没有指定在连接之后是否可以通过ConcurrentAppend写入以这种方式加入的文件。我怀疑我们会遇到问题,因为我们要加入两种方法创建的文件(也许甚至不可能进行连接?)
所以我的问题如下:
成本是一个问题,这就是为什么我们希望尽可能使用PowerShell cmdlet,并且希望避免使用最后一个选项。
答案 0 :(得分:1)
目前在连接操作之后,不能对文件执行追加操作。我们目前正在开发一项功能来消除此限制。但是,目前在连接文件后,附件将无效。