Mallet CRF SimpleTagger短语/多字

时间:2013-03-18 06:49:59

标签: pos-tagger mallet phrases crf

我是Mallet的新手,我正在尝试使用简单标记器/ CRF并尝试使用短语 - 我尝试在mallet网站上查找文档并浏览用户档案 - 没有任何帮助。

我尝试用简单标记训练槌,它的作用很合理......这就是我的数据的样子 (请注意,训练之间有一个换行符表示它们是不同的)

示例培训数据:

where STOPWORD
is STOPWORD
chicago CITY
<---Newline---->
Sunnyvale CITY
<---Newline---->
Chicago CITY
<---Newline---->
Washington CITY
<---Newline---->
What STOPWORD
is STOPWORD
Sunnyvale CITY
time ASK
<---Newline---->
new STOPWORD
<---Newline---->    
place STOPWORD 

我遇到的问题是城市名称是多个单词,Say

new york CITY

请注意,在上述训练数据中,“new”是一个STOPWORD 问题

  1. 对于简单标记器,上述表示是否正常?如果不是我如何代表护士?
  2. 如果不是如何表示数据,以便SimpleTagger / CRF可以使用前面的'n'字来到达标签?即我的输入块

1 个答案:

答案 0 :(得分:1)

据我所知,您用于多字表达的格式不正确。 根据{{​​3}},输入的格式是featre1 feature2 feature3 ....

所以,在你的情况下,New是feature1,York是feature 2等。

我建议使用New_York将多个单词表达式作为一个单词。

同时,您应该注意到您不必在输入数据中包含单词本身。如果您这样做,它们将被视为第一个功能。因此,如果“单词文本”或“单词引理”对您来说不是一个有趣的功能,请将其从输入数据中删除。