基于开源规则的模式匹配/信息提取框架?

时间:2013-07-26 22:20:10

标签: text open-source nlp named information-extraction

我正在购买一个开源框架,用于为注释上的模式匹配编写自然语言语法规则。您可以将其视为正则表达式,但匹配令牌而非字符级别。这样的框架应该使匹配标准能够引用附加到输入令牌或跨度的其他属性,以及在操作中修改这些属性。

我知道有三个选项符合此描述:

目前还有其他类似的选项吗?

相关工具

  • 虽然我知道像Antlr这样的通用解析器生成器也可以用于此目的,但我正在寻找更适合自然语言处理或信息提取的东西。
  • UIMA包含一个Regex Annotator插件,用于在XML中声明规则,但似乎是在角色而不是高级对象上运行。
  • 我知道这种任务通常是用统计模型进行的,但对于狭隘的结构化域名,手工制作规则是有好处的。

*使用GExp'规则'实际上是在代码中实现的,但由于我选择包含它的选项很少。

2 个答案:

答案 0 :(得分:0)

您也可以查看HTQL。它支持令牌的正则表达式搜索。从美国地址搜索州和邮政编码的示例是:

a=htql.RegEx(); 
a.setNameSet('states', states);
a.reSearchList(address.split(), r"&[ws:states]<,>?<\d{5}>", case=False) 

答案 1 :(得分:0)

巴黎东大学的法语学术软Unitex也符合您的描述(http://www-igm.univ-mlv.fr/~unitex/

它基于C ++,包含许多可选的预处理规则和20多种语言的词典。

GUI是基于图形的(你设计自动机即'语法')。