Question

我想计算文档中特定短语的出现次数。例如“stackoverflow论坛”。假设 D 表示使用包含这两个术语的文档设置的文档。

现在，假设我有以下数据结构：

A[numTerms][numMatchedDocuments][numOccurInADocument]

其中numMatchedDocuments是D的大小，numOccurInADocument是特定术语在特定文档中出现的次数，例如：

A[stackoverflow][document1][occurance1]=3;

意味着，术语“stackoverflow”出现在文档“document1”中，并且它的第一次出现在位置“3”。

然后我选择发生最少的术语并遍历其所有位置，以查找“论坛”是否出现在当前术语“stackoverflow”位置+ 1的位置。换句话说，如果我在第4位找到“论坛”，那么这就是一个短语，我找到了匹配。

每个文档的匹配很简单，并且运行速度相当快，但是当文档数量超过2,000,000时，它会变得很慢。我已经将它分发到核心上，当然它变得更快但是想知道是否有更好的算法。

谢谢，

Psudo码：

boolean docPhrase=true;
int numOfTerms=2;
// 0 for "stackoverflow" and 1 for "forums"
for (int d=0;d<D.size();d++){
 //D is a set containing the matched documents
 int minId=getTheLeastOccuringTerm();
 for (int i=0; i<A[minId][d].length;i++){ // For every position for LeastOccuringTerm
   for( int t=0;t<numOfTerms;t++){ // For every terms
      int id=BinarySearch(A[t][d], A[minId][d][i] - minId + t);
      if (id<0) docPhrase=false;
   }
 }
}

Answer 1

正如我在评论中提到的，Suffix Array可以解决这类问题。我回答了一个类似的问题（Fastest way to search a list of names in C#），其中包含一个简单的后缀数组的c＃实现。

基本思想是你有一个指向文档索引的索引对数组，以及该文档中的位置。索引对表示从文档中的该点开始的字符串，并继续到文档的末尾。但实际文档及其内容仅在原始商店中存在一次。后缀数组只是这些索引对的数组，每个文档中的每个位置都有一对。然后，按照它们指向的文本的顺序对后缀数组进行排序。排序后，您现在可以通过在后缀数组上进行简单的二进制搜索，快速找到任何文档中的任何短语。构建（主要是排序）后缀数组可能是耗时的。但一旦构建，搜索速度非常快。它在内存上相当容易，因为实际的文档内容只存在一次。

将它扩展到每个文档中返回的词组匹配计数是微不足道的。

这与后缀数组的经典描述略有不同，后者通常会讨论在一个非常大的字符串上运行的后缀数组。但是，使其适用于字符串/文档数组的更改并不是那么大，尽管它可以增加后缀数据所消耗的内存量，具体取决于文档的最大数量和最大文档长度，以及如何编码索引对。

快速高效的数组计算

1 个答案: