我们在couchbase中的数据被复制,因此我们有2倍的每条记录。 我使用Schoop插件,Couchbase Hadoop Connector将数据从Couchbase导入HDFS:
这是我的命令:
sqoop import --connect $ server_address / pools --table DUMP --username data-db --num-mappers 10
例如,如果couchbase中有3条记录:
a123,{last_name:史密斯,年龄:20}
b234,{last_name:琼斯,年龄:25}
c456,{last_name:伯克,年龄:30}
导入后,我会
a123,{last_name:史密斯,年龄:20}
a123,{last_name:史密斯,年龄:20}
b234,{last_name:琼斯,年龄:25}
b234,{last_name:琼斯,年龄:25}
c456,{last_name:伯克,年龄:30}
c456,{last_name:伯克,年龄:30}
在HDFS中。
这非常烦人,因为我们拥有数百万的数据,其中2倍的内容都是运行时间的两倍。我真的希望有办法摆脱重复。
非常感谢您提供的任何帮助或提示:)
- - - - >此外,如果您阅读连接器的文档,其中一个限制是您无法查询以获取特定数据。