Lua:在给定符号列表的情况下迭代每个可能的k长度字符串

时间:2013-11-06 08:33:43

标签: string lua permutation bioinformatics

我想在给定符号列表的情况下迭代每个可能的k长度字符串(称为 k-mer )。例如,如果是k = 3symbols = {A, C, G, T},那么:

AAA
AAC
AAG
...
TTG
TTT

这是我生成字符串的代码:

local k = 3
local bases = {'A', 'C', 'T', 'G'}

-- Generate the string (AAA...AAA)
local kmer_gen = {}
for i = 1,k do kmer_gen[i] = "A" end
local kmer = table.concat(kmer_gen)

它有效,但肯定看起来不太好。这可以更优雅地实现吗?

现在,我不确定如何迭代可能的k-mers。一种解决方案是保持替换每个字符,但这看不到有效。另一种方法是从二进制解码(每2位代表一个基数),但实现混乱并需要按位操作。还有其他想法吗?

2 个答案:

答案 0 :(得分:6)

这是使用迭代器的解决方案。这是协同程序的一个很好的例子,这是一种值得在Lua中了解的技术。另请参阅http://www.lua.org/pil/9.3.html

local bases = {'A', 'C', 'T', 'G'}

local function allstrings(n,t,k,s)
    k=k or 1
    s=s or {}
    if k>n then
        coroutine.yield(table.concat(s))
    else
        for i=1,#t do
            s[k]=t[i]
            allstrings(n,t,k+1,s)
        end
    end
end

local function kmer(n,t)
    return coroutine.wrap(allstrings),n,t
end

for w in kmer(3,bases) do
    print(w)
end

答案 1 :(得分:4)

这是一个我可能会使用的相对简单的尾递归解决方案:

local bases = {'A', 'C', 'T', 'G'}

local function kmers(n, prev)
  prev = prev or {''}
  if n <= 0 then return prev end
  local k,r = 1,{}
  for i=1,#prev do
    for j=1,#bases do
      r[k] = prev[i] .. bases[j]
      k = k+1
    end
  end
  return kmers(n-1, r)
end

_3mers = kmers(3) -- usage example

注意:您可以手动编写r[#r+1]而不是手动管理k,但这样做并不是那么复杂,而且在这种情况下显着更快(#运算符为O(log n) )。