如何检查HDFS上的文件夹/文件中的重复记录

时间:2018-11-26 21:14:40

标签: duplicates hdfs

我们有时会收到可能包含重复项的客户端数据,并且我们想提前知道,客户端数据通常采用txt或csv格式,但是会上传到HDFS,然后对我们可见检查文件并确保可以提取任何可能的重复记录?

谢谢。

1 个答案:

答案 0 :(得分:0)

所以解决方案确实非常简单:

var df = sqlContext.load("com.databricks.spark.csv", Map("path" -> input_file, "header" -> has_header, "delimiter" -> delimiter, "inferSchema" -> infer_schema))
val df_distinct = df.dropDuplicates();