如何在Linq中删除组查询的重复数据

时间:2013-10-28 23:26:19

标签: c# linq

我正在尝试查找与每个bugid相关的不同文件名列表,我使用linq对与每个bug id相关的所有文件名进行分组。我不知道如何删除与每个bugid相关的重复文件名,在文件输出中我有多行,如下所示:     bugid filename1 filename2 filename3 filename4 .............     有多个行具有相同的bugid,并且每个bug id都有重复的文件名,     这是我的代码:

using System;
using System.Collections.Generic;
using System.Text;
using System.Linq;


namespace finalgroupquery
{
    class MainClass
{
        public static void Main (string[] args)
        {

            List <bug> list2=new List <bug> ();
             using(System.IO.StreamReader reader1= new System.IO.StreamReader( @"/home/output"))
                using (System.IO.StreamWriter file = new System.IO.StreamWriter( @"/home/output1")) 
                        {string line1;
                         while ((line1=reader1.ReadLine())!=null) 
                            { string[] items1=line1.Split('\t');        
                                    bug bg=new bug();
                                      bg.bugid=items1[0];
                                for (int i=1; i<=items1.Length -1;i++)
                                    { bg.list1.Add(items1[i]);}
                                            list2.Add(bg);
                            }

                            var bugquery= from c in list2 group c by c.bugid into x select
                                            new Container { BugID = x.Key, Grouped = x };



                            foreach (Container con in bugquery)
                            {
                                StringBuilder files = new StringBuilder();
                                files.Append(con.BugID);
                                files.Append("\t");

                                foreach(var x in con.Grouped)
                                {
                                    files.Append(string.Join("\t", x.list1.ToArray()));
                                }

                                file.WriteLine(files.ToString());       }


            }
        }
    }

    public class Container
    {
        public string BugID {get;set;}
        public IGrouping<string, bug> Grouped {get;set;}
    }

    public class bug
    { 
        public List<string> list1{get; set;}
        public string bugid{get; set;}

        public bug()
        {
            list1=new List<string>();
        }       


    }
}


}

2 个答案:

答案 0 :(得分:1)

尝试使用此代码:

        var bugquery = from c in list2
                        group c by c.bugid into x
                        select new bug { bugid = x.Key, list1 = x.SelectMany(l => l.list1).Distinct().ToList() };

        foreach (bug bug in bugquery)
        {
            StringBuilder files = new StringBuilder();
            files.Append(bug.bugid);
            files.Append("\t");
            files.Append(string.Join("\t", bug.list1.ToArray()));

            file.WriteLine(files.ToString());
        }

由于SelectManyDistinct Linq运算符的组合,您可以展平文件名列表并在一行中删除重复项。

SelectMany(来自msdn):

  

将序列的每个元素投影到IEnumerable并展平   得到的序列成一个序列。

区别(来自msdn):

  

从序列中返回不同的元素。

这也意味着不再需要您的Container类,因为不再需要遍历IGrouping<string, bug>集合(此处list1包含所有与重复相关的错误相关文件名)。

修改

由于在阅读和解析文件后可能会有一些空白行和/或空字符串,因此您可以使用此代码来删除它们:

        using (System.IO.StreamReader reader1 = new System.IO.StreamReader(@"/home/sunshine40270/mine/projects/interaction2/fasil-data/common history/outputpure"))
        {
            string line1;
            while ((line1 = reader1.ReadLine()) != null)
            {
                if (!string.IsNullOrWhiteSpace(line1))
                {
                    string[] items1 = line1.Split(new [] { '\t' }, StringSplitOptions.RemoveEmptyEntries);
                    bug bg = new bug();
                    bg.bugid = items1[0];
                    for (int i = 1; i <= items1.Length - 1; i++)
                    {
                        bg.list1.Add(items1[i]);
                    }
                    list2.Add(bg);
                }
            }
        }

你会注意到:

  • 从您的信息流中检索到line1时,检查!string.IsNullOrWhiteSpace(line1)中存储的新行是否为空(<{1}})
  • 要从string.Split方法的返回值中省略空子串,可以使用StringSplitOptions.RemoveEmptyEntries参数。

希望这有帮助。

答案 1 :(得分:1)

从你的描述中听起来你想要这样做:

        List <bug> bugs = new List<bug>();
        var lines = System.IO.File.ReadLines(@"/home/bugs");
        foreach (var line in lines) {
            string[] items = line.Split('\t');
            bug bg=new bug();
            bg.bugid = items[0];
            bg.list1 = items.Skip(1).OrderBy(f => f).Distinct().ToList();
            bugs.Add(bg);
            }

这将生成一个对象列表,其中每个对象都有一个唯一的文件名列表。