将大量数据放在本地文件系统上的最快方法是什么?

时间:2016-08-17 09:39:55

标签: apache-spark mapreduce etl distributed-computing bigdata

我有一个大约1 TB的本地目录。它由数百万个非常小的文本文档组成。如果我按顺序迭代每个文件以用于我的ETL,则需要数天。对这些数据执行ETL最快的方法是什么,最终将它加载到像hdfs或redis集群这样的分布式存储上?

1 个答案:

答案 0 :(得分:0)

通常:尝试使用多个/多个并行异步流,每个文件一个。多少将取决于几个因素(目标端点的数量,遍历/读取数据的磁盘IO,网络缓冲区,错误和延迟......)