标签: hdfs sqoop
HDFS以复制形式存储数据,当我们使用SQOOP将数据从HDFS移到RDBMS时,squeoop如何避免将重复数据从HDFS导出到RDBMS?
答案 0 :(得分:0)
HDFS内部处理复制。通常,您使用HDFS协议/ HDFS API读取文件,然后hdfs在内部进行管理,并且仅返回数据的一个副本。
Sqoop还使用HDFS API /协议读取数据。
因此,不需要在sqoop端进行额外处理。