azure - 在Azure上处理大文件的最佳方法

在Azure上处理大文件的最佳方法

时间：2019-01-11 23:57:48

标签： azure file parallel-processing mapreduce

我们在Azure上有一个正在运行的管道，用于处理大文本文件（1至10 GB）。我的任务是改善管道。我们有一个简单的工作，可以逐行读取文件并执行所需的映射/规范化。这些文件是tsv / csv文件，没有交叉引用。我们正在考虑将文件分成多个块，并在不同的工作角色上并行处理它们，并在完成处理后合并结果。我们可以利用Azure中的任何功能吗？

0 个答案:

没有答案

在python上获取大目录文件列表的最佳方法？
java高效的方法来处理大文本文件
处理大型钳子的最佳做法？
在Cuda上处理大算法的最佳方法
比较大csv文件的最佳方法？
在Big Graph上实现算法的最佳方法
在Azure中处理大文件上载的最佳方法
管理大文件下载的最佳方式
处理（过滤）BIG csv文件的最佳/更好方法？
在Azure上处理大文件的最佳方法

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？