标签: azure file parallel-processing mapreduce
我们在Azure上有一个正在运行的管道,用于处理大文本文件(1至10 GB)。我的任务是改善管道。 我们有一个简单的工作,可以逐行读取文件并执行所需的映射/规范化。这些文件是tsv / csv文件,没有交叉引用。 我们正在考虑将文件分成多个块,并在不同的工作角色上并行处理它们,并在完成处理后合并结果。 我们可以利用Azure中的任何功能吗?