我想加快配置过程, 但我不知道该怎么做 做吧。 数据约为200GB,文本数据约为3亿行, 我事先将其分割为50个文件,那么1个文件约为4GB。 我想得到1个文件作为排序的结果,然后选择reducer的数量为1而mapper的数量为50。 数据的每一行都由单词和频率组成。 应将相同的单词分组,并对其频率求和。 所有文件都是gzip文件。 需要几天的时间才能完成此过程, 我想加快 如果可以的话,要几个小时。 我应该更改哪个参数以加快该过程?
答案 0 :(得分:0)
感谢您的回复, 是的,我定义了指向HDFS位置的外部Hive表。 我显示我的伪代码,
创建外部表A count int,字串, 以'\ t'结尾的行格式分隔字段, 位置“ HDFS路径”;
选择计数,A组中的词按计数desc排序;