过滤单词列表的最快方法

时间:2012-06-26 16:43:59

标签: c# list filter

我有一个包含多个单词的列表。我想过滤掉其中一些与特定模式不匹配的内容。是否可以更快地将所有匹配项添加到临时列表中,然后将此列表复制到主列表中?或者更快地从主列表中删除所有不匹配? 我必须尽快过滤10000个单词,所以我期待每一个小小的速度增加。

编辑:

string characters = "aAbBcC";
// currentMatches contains all the words from the beginning
List<string> currentMatches = new List<string>();
List<string> newMatches = new List<string>();
foreach (string word in currentMatches)
{
   if (characters.IndexOf(word[0]) > -1)
   // word match
   {
       newMatches.Add(word);
   }
}
currentMatches = newMatches;

foreach循环应检查word是否以characters中的一个字符开头。在将所有新匹配复制到newMatches之前,我将每个匹配复制到currentMatches

3 个答案:

答案 0 :(得分:1)

假设List<T>,您将不得不考虑以下因素:

  • 如果Count小于Capacity,则Add方法是O(1)操作。如果需要增加容量以容纳新元素,则此方法将成为O(n)操作,其中n为Count;
  • RemoveAt方法是一个O(n)操作,其中n是(Count - index)。

如果创建列表以保持匹配的初始容量设置为总字数,则Add将始终为O(1)且更快。但是,您需要考虑创建此新列表的开销,其容量设置为总字数。

最重要的是,您需要对其进行测试,看看哪种方法更适合您的特定情况。

答案 1 :(得分:0)

这是一个我如何计算时间方法的例子。有很多方法可以做到这一点,我想你将不得不尝试一些。您可以使用JoãoAngelo的帖子中的信息来帮助您找到好的方法,但这里有一些。此外,如果您愿意花时间,可以将这一切放在一个循环中,创建一个新列表,运行所有测试,将TimeSpan结果放入集合而不是Console.WriteLine'ing它们,以及然后给你一个平均但是多次迭代的测试。这将有助于给你一个平均值。

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

namespace Test
{
    public class Program
    {
        public static void Main(string[] args)
        {
            List<string> testList = CreateTestList();
            const string filter = "abc";

            TimeNewListMethod(FilterIntoNewListWithLinq, testList, filter);
            TimeInPlaceMethod(FilterInPlaceWithLinq, testList, filter);

            TimeNewListMethod(FilterIntoNewListWithForEach, testList, filter);

            TimeInPlaceMethod(FilterInPlaceWithRemoveAll, testList, filter);

            Console.Read();
        }

        public static void TimeInPlaceMethod(Action<List<string>, string> testMethod, List<string> toFilter, string filter)
        {
            List<string> toFilterCopy = new List<string>(toFilter);
            DateTime time = DateTime.Now;
            testMethod(toFilterCopy, filter);
            Console.WriteLine(DateTime.Now - time);
        }

        public static void TimeNewListMethod(Func<List<string>, string, List<string>> testMethod, List<string> toFilter, string filter)
        {
            List<string> toFilterCopy = new List<string>(toFilter);
            List<string> resultList;
            DateTime time = DateTime.Now;
            resultList = testMethod(toFilterCopy, filter);
            Console.WriteLine(DateTime.Now - time);
        }

        public static List<string> FilterIntoNewListWithLinq(List<string> toFilter, string filter)
        {
            return toFilter.Where(element => element.IndexOf(filter) > -1).ToList();
        }

        public static void FilterInPlaceWithLinq(List<string> toFilter, string filter)
        {
            toFilter = toFilter.Where(element => element.IndexOf(filter) > -1).ToList();
        }

        public static List<string> FilterIntoNewListWithForEach(List<string> toFilter, string filter)
        {
            List<string> returnList = new List<string>(toFilter.Count);
            foreach (string word in toFilter)
            {
                if (word.IndexOf(word[0]) > -1)
                {
                    returnList.Add(word);
                }
            }

            return returnList;
        }

        public static void FilterInPlaceWithRemoveAll(List<string> toFilter, string filter)
        {
            toFilter.RemoveAll(element => element.IndexOf(filter) == -1);
        }

        public static List<string> CreateTestList(int elements = 10000, int wordLength = 6)
        {
            List<string> returnList = new List<string>();
            StringBuilder nextWord = new StringBuilder();

            for (int i = 0; i < elements; i++)
            {
                for (int j = 0; j < wordLength; j++)
                {
                    nextWord.Append(RandomCharacter());
                }
                returnList.Add(nextWord.ToString());
                nextWord.Clear();
            }

            return returnList;
        }

        public static char RandomCharacter()
        {
            return (char)('a' + rand.Next(0, 25));
        }

        public static Random rand = new Random();
    }
}

答案 2 :(得分:0)

整个

  

characters.IndexOf(word [0])&gt; -1

对我来说有点陌生,所以我会为未来的程序员寻找更具可读性和可维护性的东西。我花了一分钟才弄清楚你正在检查列表中每个字符串中的第一个字符,以查找{a A,B,C,a,b,c}范围内的匹配项。它有效,但对我来说,它有点神秘。我开始花时间阅读它,但我会这样做:

        foreach (string word in currentMatches)
        {               
            if (Regex.IsMatch(word, "^([A-Ca-c])"))
            {
                newMatches.Add(word);
            }
        }

我不担心将临时列表复制回初始列表。你已经定义了填充它,继续使用它。