如何为正式语法解析文本太多变量但是对NLP的约束太多了?

时间:2012-06-12 22:57:17

标签: parsing nlp linguistics

我正在处理非正式书写的文本语料库,但大体上符合非常标准的格式(想想像 Froyo Frozen Yogurt Smucker's Peanut Butter em>)偶尔需要递归( Froyo冰冻酸奶与Smucker's花生酱)。

使用正则表达式,复杂性很快变得无法控制(冷冻酸奶由Froyo , Froyo冷冻酸奶与花生酱由Smucker's 等)。

我无法找到资源来帮助我为此编写EBNF,而NLP方法太复杂(加上我的“词性”并不真正对应普通英语)。是否存在针对半正式文本的中间方法?

1 个答案:

答案 0 :(得分:0)

您可以将廉价而简单的EBNF“构建”为您最喜欢的编程语言,例如:(伪代码,让我们假设这些变量代表正则表达式)

var digit_excluding_zero = "1|2|3|4|5|6|7|8|9";
var digit = "0|" + digit excluding zero;

(这是EBNF Wikipedia page

中的第一个例子