如何从这些Web日志中删除重复的行

时间:2015-12-02 15:51:51

标签: sql logging apache-spark duplicates

我目前正在分析一些Apache网络日志。有些行包含重复项(不完全重复,因为日期时间可能相隔几秒钟。),如下图所示。我主要在Spark中使用SQL。我只想保留一个。

See Image here

2 个答案:

答案 0 :(得分:0)

您可以使用' dropDuplicates'在查询中删除重复项而不是组的方法。

shopt -s nullglob

这应该对您有所帮助。您可以参考以下链接获取此方法的详细说明。

https://spark.apache.org/docs/1.5.1/api/java/org/apache/spark/sql/DataFrame.html

答案 1 :(得分:-1)

您可以在SQL查询中使用group by命令,例如:

select * from table where x = y group by x_column