数字行Cassandra-> Hadoop输入不同

时间:2013-11-04 18:49:12

标签: hadoop cassandra datastax-enterprise datastax

我在2节点集群上有一个有147.968行的ColumnFamily(显示“nodetool cfstats”)。

如果我执行我的Hadoop作业,他在“地图输入记录”上只显示90.174行?我的Hadoop CQL输入配置是:

ConfigHelper.setInputRpcPort(job.getConfiguration(), "9160");
ConfigHelper.setInputInitialAddress(job.getConfiguration(), "xxx.xxx.xxx.xxx");
ConfigHelper.setInputColumnFamily(job.getConfiguration(), KEYSPACE, "columnfamilyname");
ConfigHelper.setInputPartitioner(job.getConfiguration(), "Murmur3Partitioner");

还有其他配置吗?

1 个答案:

答案 0 :(得分:1)

您的输入/输出格式是什么?最好使用CqlPagingInputFormat。 FTY。 cql表行与列族行不同,因此如果使用CqlPagingInputFormat,则应获得与从Cqlsh获取的行数相同的行数。