我在2节点集群上有一个有147.968行的ColumnFamily(显示“nodetool cfstats”)。
如果我执行我的Hadoop作业,他在“地图输入记录”上只显示90.174行?我的Hadoop CQL输入配置是:
ConfigHelper.setInputRpcPort(job.getConfiguration(), "9160");
ConfigHelper.setInputInitialAddress(job.getConfiguration(), "xxx.xxx.xxx.xxx");
ConfigHelper.setInputColumnFamily(job.getConfiguration(), KEYSPACE, "columnfamilyname");
ConfigHelper.setInputPartitioner(job.getConfiguration(), "Murmur3Partitioner");
还有其他配置吗?
答案 0 :(得分:1)
您的输入/输出格式是什么?最好使用CqlPagingInputFormat。 FTY。 cql表行与列族行不同,因此如果使用CqlPagingInputFormat,则应获得与从Cqlsh获取的行数相同的行数。