我正在处理非正式书写的文本语料库,但大体上符合非常标准的格式(想想像 Froyo Frozen Yogurt , Smucker's Peanut Butter em>)偶尔需要递归( Froyo冰冻酸奶与Smucker's花生酱)。
使用正则表达式,复杂性很快变得无法控制(
我无法找到资源来帮助我为此编写EBNF,而NLP方法太复杂(加上我的“词性”并不真正对应普通英语)。是否存在针对半正式文本的中间方法?
答案 0 :(得分:0)
您可以将廉价而简单的EBNF“构建”为您最喜欢的编程语言,例如:(伪代码,让我们假设这些变量代表正则表达式)
var digit_excluding_zero = "1|2|3|4|5|6|7|8|9";
var digit = "0|" + digit excluding zero;
中的第一个例子