标签: java hadoop mapreduce
我想编写一个程序,许多映射器读取一个文件 是一个图表,并且都在该图表上进行处理,该文件大约为14 kb 如果我以正常方式运行,只会为该文件映射一个映射器 我怎么能这样做? 最好的问候。
答案 0 :(得分:1)
将文件放入HDFS并使用映射器函数中的HDFS API读取文件并对其进行处理。您也可以尝试使用DistributedCache,而不是将文件放在HDFS中。
当必须对数据集进行N次模拟时,此方案也适用。模拟因子将是map函数的输入,实际数据将在map函数中读取。