ffi-aspell中使用的字符类

时间:2016-04-21 14:57:35

标签: ruby regex dictionary nlp aspell

我正在尝试使用ffi-aspell gem拼写检查文本。为了做到这一点,似乎我必须自己提取单词。我试图通过使用正则表达式将String#scan应用于文本来实现这一点,但这似乎并不简单。

定义可能出现在某种语言的ffi-aspell字典中的字符类的最简单方法是什么?我想让它不仅适用于英语,因此/[a-zA-Z']/之类的字符(或/[a-zA-Z']+/单词)不起作用。 /[[:word:]]/似乎捕获字典中不存在的字符,例如数字,并且进一步与单词中经常使用的撇号(单引号)不匹配。是否有一些文档定义了ffi-aspell字典中使用的字符集?

1 个答案:

答案 0 :(得分:1)

我想首先扫描ffi_aspell 词典会更容易一些条目,之后只有Regexp#union个唯一身份。