使用Sqoop将数据从Couchbase导出到HDFS / Hadoop会返回复制数据

时间:2014-05-21 08:28:03

标签: hadoop import hdfs couchbase connector

我们在couchbase中的数据被复制,因此我们有2倍的每条记录。 我使用Schoop插件,Couchbase Hadoop Connector将数据从Couchbase导入HDFS:

这是我的命令:

sqoop import --connect $ server_address / pools --table DUMP --username data-db --num-mappers 10

例如,如果couchbase中有3条记录:

a123,{last_name:史密斯,年龄:20}

b234,{last_name:琼斯,年龄:25}

c456,{last_name:伯克,年龄:30}

导入后,我会

a123,{last_name:史密斯,年龄:20}

a123,{last_name:史密斯,年龄:20}

b234,{last_name:琼斯,年龄:25}

b234,{last_name:琼斯,年龄:25}

c456,{last_name:伯克,年龄:30}

c456,{last_name:伯克,年龄:30}

在HDFS中

这非常烦人,因为我们拥有数百万的数据,其中2倍的内容都是运行时间的两倍。我真的希望有办法摆脱重复。

非常感谢您提供的任何帮助或提示:)

- - - - >此外,如果您阅读连接器的文档,其中一个限制是您无法查询以获取特定数据。

0 个答案:

没有答案