使用Levenshtein距离(将每个元素彼此比较)从两个大型数据集中优化匹配元素

时间:2019-02-04 07:17:03

标签: c# performance optimization

我目前正在研究一个问题,以便从另一个名为“ ListB”的列表中找到列表中最佳的数据匹配项,即“ ListA”。每当我找到“ ListA”的元素与“ ListB”中任何元素的置信度和准确性达到70%或更高的匹配项时,我就将来自列表B的匹配字符串和列表A中的字符串添加到元组,保存在数据库中。

Levenshtien算法为我提供了一个数字,我将其与70的阈值进行比较,如果返回的值等于或大于70%的阈值,则将其附加到原始字符串元素“ ListA”。

如果“ ListA”和“ ListB”中的记录在数千个值之内,并且如果将记录增加到一百万个,则为每个过程计算一个小时大约需要一个小时,因此我为此过程编写的代码可以正常工作列表A的元素。

我需要针对大型数据集优化流程。请告知我需要在哪里进行改进。

到目前为止,我的程序代码看起来像这样

  public static PerformFuzzyMatch()
  {
    // Fetch the ListA & List B from SQL tables
     var ListACount = await FuzzyMatchRepo.FetchListACount();
     var ListB = await FuzzyMatchRepo.FetchListBAsync();

    //Split the ListA data to smaller chunks and loop through those chunks 
     var splitGroupSize = 1000;
     var sourceDataBatchesCount = ListACount / splitGroupSize;

     // Loop through the smaller chunks of List A
     for (int b = 0; b < sourceDataBatchesCount; b++)
     {
       var currentBatchMatchedWords = new List<Tuple<string, string, double>>();
       int skipRowCount = b * splitGroupSize;
       int takeRowCount = splitGroupSize;

       // Get chunks of data from ListA according to the skipRowCount and takeRowCount
   var currentSourceDataBatch = FuzzyMatchRepository.FetchSourceDataBatch(skipRowCount, takeRowCount);

 //Loop through the ListB and parallely calculate the distance between chunks of List A and List B data
   for (int i = 0; i < ListB.Count; i++)
   {
     Parallel.For(
      0,
      currentSourceDataBatch.Count,
      new ParallelOptions { MaxDegreeOfParallelism = Environment.ProcessorCount * 10 },
      cntr =>
      {
         try
         {
            //call the Levenshtien Algorithm to calculate the distance between each element of ListB and the smaller chunk of List A.
              int leven = LevenshteinDistance(currentSourceDataBatch[cntr], ListB[i]);
              int length = Math.Max(currentSourceDataBatch[cntr].Length, ListB[i].Length);
              double similarity = double similarity = 1.0 - (double)leven / length;
              if ((similarity * 100) >= 70)
              {
     currentBatchMatchedWords.Add(Tuple.Create(currentSourceDataBatch[cntr], ListB[i], similarity));
            }
          cntr++;
         }
        catch (Exception ex)
        {
         exceptions.Enqueue(ex);
        }
      });
     }
   }
  }

它调用的算法是计算距离为

public static int LevenshteinDistance(this string input, string comparedTo, bool caseSensitive = false)
    {
        if (string.IsNullOrWhiteSpace(input) || string.IsNullOrWhiteSpace(comparedTo))
        {
            return -1;
        }

        if (!caseSensitive)
        {
            input = Common.Hashing.InvariantUpperCaseStringExtensions.ToUpperInvariant(input);
            comparedTo = Common.Hashing.InvariantUpperCaseStringExtensions.ToUpperInvariant(comparedTo);
        }

        int inputLen = input.Length;
        int comparedToLen = comparedTo.Length;

        int[,] matrix = new int[inputLen, comparedToLen];

        //initialize           
        for (var i = 0; i < inputLen; i++)
        {
            matrix[i, 0] = i;
        }
        for (var i = 0; i < comparedToLen; i++)
        {
            matrix[0, i] = i;
        }

        //analyze
        for (var i = 1; i < inputLen; i++)
        {
            ushort si = input[i - 1];
            for (var j = 1; j < comparedToLen; j++)
            {
                ushort tj = comparedTo[j - 1];
                int cost = (si == tj) ? 0 : 1;

                int above = matrix[i - 1, j];
                int left = matrix[i, j - 1];
                int diag = matrix[i - 1, j - 1];
                int cell = FindMinimumOptimized(above + 1, left + 1, diag + cost);

                //transposition
                if (i > 1 && j > 1)
                {
                    int trans = matrix[i - 2, j - 2] + 1;
                    if (input[i - 2] != comparedTo[j - 1])
                    {
                        trans++;
                    }
                    if (input[i - 1] != comparedTo[j - 2])
                    {
                        trans++;
                    }
                    if (cell > trans)
                    {
                        cell = trans;
                    }
                }
                matrix[i, j] = cell;
            }
        }
        return matrix[inputLen - 1, comparedToLen - 1];
    }

寻找最小优化的麻烦

public static int FindMinimumOptimized(int a, int b, int c)
    {
        return Math.Min(a, Math.Min(b, c));
    }

1 个答案:

答案 0 :(得分:1)

这是固有具有二次成本O(N^2)的计算。随着项目数量的增加,这总是很难扩展的。

您可以并行化它,但这只是执行所花费时间的常数。

您是否可以找到其他基于平等的条件来进行匹配?在这种情况下,您可以使用基于哈希的算法来非常快速地创建候选检查对象。例如,假设您要匹配文本文章,并且您希望几乎所有Levenstein匹配都发生在同一日历日撰写的文章中,那么您可以先按日期进行匹配(使用O(N)复杂度),然后才对所有内容进行二次比较当天的项目。您还可以比较前一天和第二天的项目,以节省一些时间。

如果不能这样做,则必须接受二次缩放。

一个好的代码模式是这样的:

var pairs = (from a in listA
             from b in listB //cross product
             select new { a, b });

var matches = 
 pairs
 .AsParallel()
 .Where(pair => IsLevenshteinMatch(pair))
 .ToList();

您可以扔掉为此编写的所有复杂代码。在使用并发或并行处理时,通常需要花一点时间考虑一下最佳设计。通常,对于常见问题有高度紧凑的解决方案。