应用错误收集

我们在couchbase中的数据被复制，因此我们有2倍的每条记录。我使用Schoop插件，Couchbase Hadoop Connector将数据从Couchbase导入HDFS：

这是我的命令：

sqoop import --connect $ server_address / pools --table DUMP --username data-db --num-mappers 10

例如，如果couchbase中有3条记录：

a123，{last_name：史密斯，年龄：20}

b234，{last_name：琼斯，年龄：25}

c456，{last_name：伯克，年龄：30}

导入后，我会

a123，{last_name：史密斯，年龄：20}

b234，{last_name：琼斯，年龄：25}

c456，{last_name：伯克，年龄：30}

在HDFS中

。

这非常烦人，因为我们拥有数百万的数据，其中2倍的内容都是运行时间的两倍。我真的希望有办法摆脱重复。

非常感谢您提供的任何帮助或提示：）

- - - - ＆GT;此外，如果您阅读连接器的文档，其中一个限制是您无法查询以获取特定数据。