我目前正在分析一些Apache网络日志。有些行包含重复项(不完全重复,因为日期时间可能相隔几秒钟。),如下图所示。我主要在Spark中使用SQL。我只想保留一个。
答案 0 :(得分:0)
您可以使用' dropDuplicates'在查询中删除重复项而不是组的方法。
shopt -s nullglob
这应该对您有所帮助。您可以参考以下链接获取此方法的详细说明。
https://spark.apache.org/docs/1.5.1/api/java/org/apache/spark/sql/DataFrame.html
答案 1 :(得分:-1)
您可以在SQL查询中使用group by
命令,例如:
select * from table where x = y group by x_column