我们有时会收到可能包含重复项的客户端数据,并且我们想提前知道,客户端数据通常采用txt或csv格式,但是会上传到HDFS,然后对我们可见检查文件并确保可以提取任何可能的重复记录?
谢谢。
答案 0 :(得分:0)
所以解决方案确实非常简单:
var df = sqlContext.load("com.databricks.spark.csv", Map("path" -> input_file, "header" -> has_header, "delimiter" -> delimiter, "inferSchema" -> infer_schema))
val df_distinct = df.dropDuplicates();