Question

我们有时会收到可能包含重复项的客户端数据，并且我们想提前知道，客户端数据通常采用txt或csv格式，但是会上传到HDFS，然后对我们可见检查文件并确保可以提取任何可能的重复记录？

谢谢。

Answer 1

所以解决方案确实非常简单：

var df = sqlContext.load("com.databricks.spark.csv", Map("path" -> input_file, "header" -> has_header, "delimiter" -> delimiter, "inferSchema" -> infer_schema))
val df_distinct = df.dropDuplicates();

如何检查HDFS上的文件夹/文件中的重复记录

1 个答案: