应用错误收集

将大量数据放在本地文件系统上的最快方法是什么？

时间：2016-08-17 09:39:55

标签： apache-spark mapreduce etl distributed-computing bigdata

我有一个大约1 TB的本地目录。它由数百万个非常小的文本文档组成。如果我按顺序迭代每个文件以用于我的ETL，则需要数天。对这些数据执行ETL最快的方法是什么，最终将它加载到像hdfs或redis集群这样的分布式存储上？

1 个答案:

答案 0 :(得分：0)

通常：尝试使用多个/多个并行异步流，每个文件一个。多少将取决于几个因素（目标端点的数量，遍历/读取数据的磁盘IO，网络缓冲区，错误和延迟......）