我想对烹饪食谱进行一些自然语言处理,特别是成分(可能稍后准备)。基本上我正在寻找创建我自己的POS标签集来帮助我确定配料线的含义。
例如,如果其中一种成分是: 3/4杯(轻微包装)扁叶欧芹叶,分开
我希望标签能够表达所列出的成分和质量,通常是一个数字,然后是一些测量单位。例如:
3 \ NUM-QTY / \ FRACTION4 \ NUM-QTY杯\ N-MEAS(轻微\ ADV包装\ VD)[平叶\ ADJ欧芹\ N] \ INGREDIENT离开\ N,分割\ VD
我找到的代码here。
我不确定一些事情:
我觉得这种语言处理是如此具体,以至于在适用的集合上训练一个标记符是有益的,但我不确定如何继续。
谢谢!
答案 0 :(得分:3)
使用pattern.search库。
python模式库支持许多标签[1],包括基数标签(CD)。
一旦你标记了红衣主教,分数就是“红衣主教/红衣主教”或类似“红衣主教/红衣主教”之类的东西。
关于数量,你应该建立一个烹饪量的分类。 python模式库也支持词形还原[2]。
我认为使用pattern.search [2]你可以构建一个适合你数据的约束,并使用它对文本进行模式搜索。
[1] http://www.clips.ua.ac.be/pages/mbsp-tags [2] http://www.clips.ua.ac.be/pages/pattern-search