我有一个超过100k行的大文本文件。有些行是重复的。我想在处理这些条目之前重复这些条目。我使用visual basic 2010 Express来写这个。
文本文件示例:
132165
165461
646843
654654
321358
132165
165461
答案 0 :(得分:4)
我想在处理之前重复删除这些条目
您可以使用HashSet(Of T)
Dim nodupes As New HashSet(Of String)(File.ReadLines(path))
For Each str As String In nodupes
' no duplicate here '
Next
修改由于HashSet(Of T)
does not guarantee to preserve the insertion order,如果您需要确保此订单,则可以使用以下代码:
Dim nodupeSet As New HashSet(Of String)
Dim nodupes = From line In File.ReadLines(path)
Where nodupeSet.Add(line)
For Each str As String In nodupes
' no duplicate here '
Next