标签: apache-spark mapreduce etl distributed-computing bigdata
我有一个大约1 TB的本地目录。它由数百万个非常小的文本文档组成。如果我按顺序迭代每个文件以用于我的ETL,则需要数天。对这些数据执行ETL最快的方法是什么,最终将它加载到像hdfs或redis集群这样的分布式存储上?
答案 0 :(得分:0)
通常:尝试使用多个/多个并行异步流,每个文件一个。多少将取决于几个因素(目标端点的数量,遍历/读取数据的磁盘IO,网络缓冲区,错误和延迟......)