Lua - 如何找到1或2个字符差异的子字符串

时间:2012-10-19 06:58:03

标签: string lua string-matching

说我有一个字符串

local a = "Hello universe"

我通过

找到子串“universe”
a:find("universe")

现在,假设字符串是

local a = "un#verse"

要搜索的字符串是Universe;但子字符串因单个字符而异。 显然Lua忽略了它。

即使单个字符存在差异,如何让函数找到字符串?

4 个答案:

答案 0 :(得分:5)

如果您知道角色的位置,请使用.代替该角色:a:find("un.verse")

然而,看起来你正在寻找模糊字符串搜索。它不属于Lua string库的范围。您可能需要从这篇文章开始:http://ntz-develop.blogspot.com/2011/03/fuzzy-string-search.html

至于Lua模糊搜索实现 - 我没有使用任何,但googing“lua模糊搜索”给出了一些结果。有些是基于这篇论文:http://web.archive.org/web/20070518080535/http://www.heise.de/ct/english/97/04/386/

尝试https://github.com/ajsher/luafuzzy

答案 1 :(得分:4)

听起来你想要的是TRE

  

TRE是一个轻量级,强大且高效的POSIX兼容的regexp匹配库,具有一些令人兴奋的功能,如近似(模糊)匹配。

     

近似模式匹配允许匹配为近似,即允许匹配在某种接近程度下接近搜索模式。 TRE使用编辑距离度量(也称为Levenshtein距离),其中可以在搜索的文本中插入,删除或替换字符以获得精确匹配。每次插入,删除或替换都会增加匹配的距离或成本。 TRE可以报告成本低于某个给定阈值的匹配。 TRE也可用于搜索成本最低的匹配。

它的Lua绑定作为lrexlib的一部分提供。

答案 2 :(得分:2)

简单滚动您自己的方法(基于模式保持相同长度的假设):

function hammingdistance(a,b)
    local ta={a:byte(1,-1)}
    local tb={b:byte(1,-1)}
    local res = 0
    for k=1,#a do
        if ta[k]~=tb[k] then
            res=res+1
        end
    end
    print(a,b,res) -- debugging/demonstration print
    return res
end

function fuz(s,pat)
    local best_match=10000
    local best_location
    for k=1,#s-#pat+1 do
        local cur_diff=hammingdistance(s:sub(k,k+#pat-1),pat)
        if  cur_diff < best_match then
            best_location = k
            best_match = cur_diff
        end
    end
    local start,ending = math.max(1,best_location),math.min(best_location+#pat-1,#s)
    return start,ending,s:sub(start,ending)
end

s=[[Hello, Universe! UnIvErSe]]
print(fuz(s,'universe'))

免责声明:不推荐,只是为了好玩:

如果你想要一个更好的语法(并且你不介意搞乱标准类型的元表),你可以使用它:

getmetatable('').__sub=hammingdistance
a='Hello'
b='hello'
print(a-b)

但请注意a-b不等于b-a

答案 3 :(得分:2)

如果您真的在寻找单个字符差异并且不关心性能,那么这是一个应该有效的简单方法:

local a = "Hello un#verse"

local myfind = function(s,p)  
  local withdot = function(n)
    return p:sub(1,n-1) .. '.' .. p:sub(n+1)
  end
  local a,b
  for i=1,#s do
    a,b = s:find(withdot(i))
    if a then return a,b end
  end
end

print(myfind(a,"universe"))