Question

我目前正在分析一些Apache网络日志。有些行包含重复项（不完全重复，因为日期时间可能相隔几秒钟。），如下图所示。我主要在Spark中使用SQL。我只想保留一个。

Answer 1

您可以使用＆＃39; dropDuplicates＆＃39;在查询中删除重复项而不是组的方法。

shopt -s nullglob

这应该对您有所帮助。您可以参考以下链接获取此方法的详细说明。

Answer 2

您可以在SQL查询中使用group by命令，例如：

select * from table where x = y group by x_column