应用错误收集

表上只有3条记录的datastax hive select count（*），但需要1小时才能计数（），为什么？

时间：2013-09-16 20:04:33

标签： hadoop hive datastax-enterprise

蜂房＆GT; select * from example; OK
1你好杨 2你好熊
3 aaa
所用时间：51.273秒 - ＆gt;没关系！
蜂房＆GT;从示例中选择count（key）;
总MapReduce工作= 1 从1开始工作1 开始工作= job_201309170341_0001，跟踪网址= ...
杀死命令= / usr / bin / dse hadoop job -Dmapred.job.tracker = 10.10.5.153：8012 -kill job_201309170341_0001
Stage-1的Hadoop职位信息： mappers的数量：1537 ;减速机数量：1

然后等待1小时，我得到计数：3！

为什么需要这么多时间？为什么地图如此之大：1537？

1 个答案:

答案 0 :(得分：2)

你启用了vnodes吗？看起来你启用了vnode。我们正在开发关于vnodes的支持hadoop，但在它完成之前，建议为hadoop数据中心/集群禁用它

为什么我们需要将外部表移动到托管的hive表？
表上只有3条记录的datastax hive select count（*），但需要1小时才能计数（），为什么？
当ORC表上的select count（1）时，Hive抛出ArrayIndexOutOfBoundsException
如何使用Hive根据计数选择no记录
Impala可以从表中执行COUNT（*）但不能执行SELECT *
为什么顶点计数仅在DSE Graph中的开发模式下获得
hive根据计数的平均值选择计数
hive list records which do not match in other table
为什么过滤分区键的遍历需要全表扫描？
从表中选择count（*），从表中选择*无需任何输出

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？