手动标记带有自定义标签的训练集

时间:2011-11-19 21:38:15

标签: python nltk

我想对烹饪食谱进行一些自然语言处理,特别是成分(可能稍后准备)。基本上我正在寻找创建我自己的POS标签集来帮助我确定配料线的含义。

例如,如果其中一种成分是: 3/4杯(轻微包装)扁叶欧芹叶,分开

我希望标签能够表达所列出的成分和质量,通常是一个数字,然后是一些测量单位。例如:

3 \ NUM-QTY / \ FRACTION4 \ NUM-QTY杯\ N-MEAS(轻微\ ADV包装\ VD)[平叶\ ADJ欧芹\ N] \ INGREDIENT离开\ N,分割\ VD

我找到的代码here

我不确定一些事情:

  1. 我应该使用自定义标签,还是应该在使用预先存在的标签后进行某种后标记处理?
  2. 如果我使用自定义标签,是制作培训文本的最佳方式,只需通过成分列表并手动标记所有内容?
  3. 我觉得这种语言处理是如此具体,以至于在适用的集合上训练一个标记符是有益的,但我不确定如何继续。

    谢谢!

1 个答案:

答案 0 :(得分:3)

使用pattern.search库。

python模式库支持许多标签[1],包括基数标签(CD)。

一旦你标记了红衣主教,分数就是“红衣主教/红衣主教”或类似“红衣主教/红衣主教”之类的东西。

关于数量,你应该建立一个烹饪量的分类。 python模式库也支持词形还原[2]。

我认为使用pattern.search [2]你可以构建一个适合你数据的约束,并使用它对文本进行模式搜索。

[1] http://www.clips.ua.ac.be/pages/mbsp-tags [2] http://www.clips.ua.ac.be/pages/pattern-search

相关问题