我想在磁盘上存储大量的ngram,以便我可以对它执行以下查询:
第三点的一个例子是所有包含'a','b'和'c'的ngram,它们产生ngrams,如(a,b,c),(b,c,a),(x,a ,z,b,c)等。
第四点的一个例子是模板后面的所有ngrams(a,*,*,b),它们产生ngrams,如(a,x,y,b),(a,a,a,b),等
目前我将它们存储在数据库表中,并为ngram的每个元素分别使用一个字段,但这似乎不是搜索包含任何顺序和位置的给定元素的ngram的最佳选择。为了搜索包含“a”,“b”和“c”的3grams,我使用以下SQL'where'子句:
WHERE
(ele0 = 'a' OR ele1 = 'a' OR ele2 = 'a') AND
(ele0 = 'b' OR ele1 = 'b' OR ele2 = 'b') AND
(ele0 = 'c' OR ele1 = 'c' OR ele2 = 'c')
这根本不能很好地扩展。有没有更好的方法来构建数据并进行查询?
答案 0 :(得分:2)
您没有指定“大号”是什么。我不能想到一种方法来支持使用标准SQL优化方法所需的所有操作。在某些数据库中,全文支持可能有所帮助。
如果你想使用SQL(作为持久存储非常合理),我建议你只使用字符串。换句话说,ngram是一个字符串。
您的查询如下:
select *
from ngrams;
select *
from ngrams
where len(ngram) = XXX
select *
from ngrams
where ngram like '%a%' and ngram like '%b%' and ngram like '%c%';
select *
from ngrams
where ngram like 'a__b';
然后,您可以增强此结构,使其对某些查询更有效。例如,如果要优化查询以获取长度,则添加length
列并对其进行索引(除非您有很多不同的长度,否则这将不会非常有用)。要优化第三种类型的查询,请添加一个按字母顺序排列元素的新列(因此,“CBA”也会有一列“ABC”)。对此的索引将有助于查询第三种类型。
编辑(回应评论):
我一直认为n-gram首先引用单个字符,但Wikipedia表示它们是任何项目的顺序集。
您可以使用上述架构轻松处理“单词”,只需引入一个不是任何单词中允许字符的分隔符,例如'|'
分隔符。因此,n-gram“ABC”将存储为“| A | B | C |”:
select *
from ngrams;
select *
from ngrams
where ngramLen = XXX
select *
from ngrams
where ngram like '%|a|%' and ngram like '%|b|%' and ngram like '%|c|%';
select *
from ngrams
where ngram like |a|%|b|' and ngramLen = 4;
在这种情况下,您需要一个具有元素数量的单独字段,因为您无法使用长度函数轻松计算。
考虑到你正在考虑拥有数百万的ngram,你会遇到一些挑战。用文字来说,这可能占用高达千兆字节的内存。为了提高性能,您需要将表放入内存中。这些操作非常适合并行数据库,因此该过程将顺利扩展。事实上,使用数据库的一个优点是,您可以简单地在问题上投入更多内存/磁盘/处理器,并且您将获得更好的性能。