我一直在玩Azure Data Lake Store,在文档中,Microsoft声称该系统针对文件的低延迟小写入进行了优化。测试它我尝试对单个文件执行大量的并行任务写入,但是这种方法在大多数情况下都会失败,返回错误的请求。此链接https://issues.apache.org/jira/secure/attachment/12445209/appendDesign3.pdf显示HDFS不能处理单个文件上的并发附加,因此我第二次尝试使用API中的ConcurrentAppendAsync方法,但该方法并未崩溃,我的文件从未在商店修改过。
答案 0 :(得分:3)
您发现的并行写入的工作方式是正确的。我假设您已经阅读了ConcurrentAppendAsync的documentation。
那么,在您的情况下,您是否使用相同的文件进行Webhdfs写入测试和ConcurrentAppendAsync?如果是这种情况,那么ConcurrentAppendAsync将不起作用,如文档中所述。但在这种情况下你应该有一个错误。
无论如何,请告诉我们发生了什么,我们可以进一步调查。
谢谢,
Sachin Sheth
项目经理 - Azure Data Lake