如何匹配Lua中的句子

时间:2016-09-05 09:39:05

标签: lua lua-patterns

我正在尝试创建一个试图匹配句子的正则表达式。

这是一个片段。

local utf8 = require 'lua-utf8'
function matchsent(text)
  local text = text
  for sent in utf8.gmatch(text, "[^\r\n]+\.[\r\n ]") do
    print(sent)
    print('-----')
  end
end

然而,它在python中不起作用。我知道Lua使用不同的正则表达式模式,并且它的正则表达式功能是有限的,但为什么上面的正则表达式给我一个语法错误?如何在Lua中匹配正则表达式的句子看起来像什么?

1 个答案:

答案 0 :(得分:2)

请注意,Lua使用Lua模式,这些模式不是“常规”表达式,因为它们与常规语言不匹配。它们几乎不能用于将文本拆分成句子,因为您需要考虑各种缩写,间距,大小写等。要将文本拆分成句子,您需要一个NLP包而不是一个或两个正则表达式,因为它的复杂性任务。

关于

  

为什么上面的正则表达式给我一个语法错误?

您需要在Lua 模式中使用%符号转义特殊符号。查看示例代码:

function matchsent(text)
    for sent in string.gmatch(text, '[^\r\n]+%.[\r\n ]') do
        print(sent)
        print("---")
    end
end
matchsent("Some text here.\nShow me")

online demo