使用我的信息进行重复数据删除的最佳方法是什么?

时间:2012-10-25 18:20:33

标签: sql deduplication pst

我需要查找并删除重复文件(.pst)并最终获取唯一的电子邮件。目前,我使用Powershell以递归方式遍历文件夹以仅查找.pst文件,然后将特定元数据导出到.csv文件中。有人建议我将.csv导入SQL进行比较(名称,文件上的日期等)。在那之后,我被困住了。

哪种语言或程序最适合获取我需要的文件并删除其余文件?我在VB.Net(可以尝试C#)和powershell工作。

2 个答案:

答案 0 :(得分:1)

您可以使用您想要的任何内容,只要它有一种编辑文件系统的方法并且可以执行SQL查询。

我不知道VB.net是否支持SQL服务器,但由于它是.net语言,我很确定它。

我会说你知道支持这两个特征的语言:)

答案 1 :(得分:1)

我假设您确实将.csv导入SQL数据库。假设表名是psts。

首先,要找出有多少记录具有相同的电子邮件地址,

SELECT email, count(*)
FROM psts
GROUP BY email

接下来,您不希望看到具有一个值的那些,因此,

SELECT email, count(*)
FROM psts
GROUP BY email
HAVING count(*) >= 2

获取那些记录的列表,

SELECT out.email, count(*), out.<other fields you want to see>
FROM psts out
  INNER JOIN psts pst_count ON out.email = pst_count.email
GROUP BY out.email
HAVING count(*) >= 2