我正在编写一个程序,只会读取包含以下信息的2个不同的 .csv文件:
file 1 file2
AA,2.34 BA,6.45
AB,1.46 BB,5.45
AC,9.69 BC,6.21
AD,3.6 AC,7.56
第一列为string
,第二列为double
。
到目前为止,我在阅读这些文件并将值放入List时没有任何困难:
firstFile = new List<KeyValuePair<string, double>>();
secondFile = new List<KeyValuePair<string, double>>();
我正在尝试指导我的程序:
AA
)的第一列中获取第一个值double
),如果在这种情况下匹配,则将整行添加到单独的List
。 类似于以下伪代码:
的内容for(var i=0;i<firstFile.Count;i++)
{
firstFile.Column[0].value[i].SearchMatchesInAnotherFile(secondFile.Column[0].values.All);
if(MatchFound)
{
CompareCorrespondingDoubles();
if(true)
{
AddFirstValueToList();
}
}
}
我尝试使用List
而不是Dictionary
,但是这个数据结构没有排序,也没有办法通过索引访问密钥。
我没有要求提供确切的代码,而是问题是:
您建议将此程序用作此程序的适当数据结构,以便我可以进一步调查自己?
答案 0 :(得分:8)
KeyValuePair
实际上仅用于Dictionary
。我建议您创建自己的自定义类型:
public class MyRow
{
public string StringValue {get;set;}
public double DoubleValue {get;set;}
public override bool Equals(object o)
{
MyRow r = o as MyRow;
if (ReferenceEquals(r, null)) return false;
return r.StringValue == this.StringValue && r.DoubleValue == this.DoubleValue;
}
public override int GetHashCode()
{
unchecked { return StringValue.GetHashCode ^ r.DoubleValue.GetHashCode(); }
}
}
并将文件存储在此类型的列表中:
List<MyRow> firstFile = ...
List<MyRow> secondFile = ...
然后你可以通过LINQ的Intersect
方法确定交集(两个列表中出现的所有元素):
var result = firstFile.Intersect(secondFile).ToList();
有必要覆盖Equals
和GetHashCode
,否则Intersect
只会进行引用比较。另外,您可以实现自己的IEqualityComparer<MyRow, MyRow>
进行比较,并将其传递给相应的Intersect
重载。
但是如果你能确保键(字符串值是唯一的),你也可以使用
Dictionary<string, double> firstFile = ...
Dictionary<string, double> secondFile = ...
在这种情况下使用此LINQ语句:
var result = new Dictionary<string, double>(
firstFile.Select(x => new { First = x, Second = secondFile.FirstOrDefault(y => x.Key == y.Key) })
.Where(x => x.Second?.Value == x.First.Value));
时间复杂度为O(m + n),而上部解决方案为O(m * n)(m和n为两个文件的行数)。