应用错误收集

如何加快蜂巢中的排序

时间：2018-09-19 05:31:36

标签： hadoop hive

我想加快配置过程，但我不知道该怎么做做吧。数据约为200GB，文本数据约为3亿行，我事先将其分割为50个文件，那么1个文件约为4GB。我想得到1个文件作为排序的结果，然后选择reducer的数量为1而mapper的数量为50。数据的每一行都由单词和频率组成。应将相同的单词分组，并对其频率求和。所有文件都是gzip文件。需要几天的时间才能完成此过程，我想加快如果可以的话，要几个小时。我应该更改哪个参数以加快该过程？

1 个答案:

答案 0 :(得分：0)

感谢您的回复，是的，我定义了指向HDFS位置的外部Hive表。我显示我的伪代码，

创建外部表A count int，字串，以'\ t'结尾的行格式分隔字段，位置“ HDFS路径”；

选择计数，A组中的词按计数desc排序；

如何加快Matlab中的“排序”功能？
如何加速Java中的外部合并排序
加快完整计数排序的方法
加快我的排序
MongoDB范围查询与排序 - 如何加快？
加快hive连接字符串值
加快Solr排序
如何加快蜂巢中的排序
如何加快此查询以检索所有配置单元表的lastUpdateTime？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？