为什么每种语言都需要一个tokenizer?

时间:2013-06-26 07:54:16

标签: text lucene nlp semantics

处理文本时,为什么需要专门用于该语言的标记化器?

不会通过空格进行标记就足够了吗?什么情况下不使用简单的空格标记化?

3 个答案:

答案 0 :(得分:18)

标记化是从表面文本中识别语言上有意义的单位(LMU)。

  

中文:如果您在新加坡只能前往一间夜间娱乐场所,Zouk必然是您的不二之选。

     

英语:如果你只有时间在新加坡的一个俱乐部,那么它只需要是Zouk。

     

印度尼西亚语:Jika Anda hanya memiliki waktu untuk satu klub di Singapura,pergilah ke Zouk。

     

日语:シンガポールで一つしかクラブに行く时间がなかったとしたら,このズークに行くべきです。

     

韩语:싱가포르에서클럽한군데밖에갈시간이없다면,Zouk를선택하세요。

     

越南语:Nếubạnchỉcóthờigianghéthămmộtcúumạcbộộ新加坡thìhãyđếnZouk。

     

文字来源:http://aclweb.org/anthology/Y/Y11/Y11-1038.pdf

上面的并行文本的标记化版本应如下所示:

enter image description here

对于英语,这很简单,因为每个LMU都是 以空格分隔/分隔 。但是在其他语言中,情况可能并非如此。对于大多数罗马语言,例如印度尼西亚语,它们具有相同的空白分隔符,可以轻松识别LMU。

然而,有时LMU是由空格分隔的两个“单词”的组合。例如。在上面的越南语句子中,您必须将thời_gian(这意味着时间英文)作为一个标记而不是2个标记。将这两个单词分成2个令牌会产生无LMU (例如http://vdict.com/th%E1%BB%9Di,2,0,0.html)或错误的LMU (例如http://vdict.com/gian,2,0,0.html)。因此,正确的越南语标记器会将thời_gian输出为一个标记,而不是thờigian

对于其他一些语言,他们的拼字法可能没有空格来划分“单词”或“标记”,例如中国人,日本人,有时是韩国人在这种情况下,标记化是计算机识别LMU所必需的。通常,LMU附加了语素/变形,因此有时morphological analyzer比自然语言处理中的标记化器更有用。

答案 1 :(得分:5)

有些语言(如中文)根本不使用空格来分隔单词。

其他语言将使用不同的标点符号 - 例如,撇号可能是也可能不是单词的一部分。

案例折叠规则因语言而异。

停止词和词干在语言之间是不同的(虽然我想我在这里偏离了标记器到分析器)。

Bjerva编辑:此外,许多语言连接复合名词。是否应将其标记为多个令牌不能仅使用空格来轻松确定。

答案 2 :(得分:3)

问题还暗示“什么是一个词?”并且可以完全针对特定任务(甚至将多语言视为一个参数)。这是我对一个包含回答的尝试:

(缺失)单词之间的空格

  

许多语言都没有在单词之间放置空格,所以   打破空白的基本分词算法是没有用的   一点都不这些语言包括主要的东亚语言/文字,   例如中国人,日本人和泰国人。古希腊语也是由   没有词空间的古希腊人。引入了空间(一起   那些后来的人带有重音符号等。在这样的   语言,分词是一个更重要和更具挑战性的   任务。 (MANNI:1999,p.129)

<强>化合物

  

德语复合名词被写成单个词,例如   “Kartellaufsichtsbehördenangestellter”(“反托拉斯”的一名员工   代理“)和事实上的化合物是单个词 - 语音学(参见(MANNI:1999,p.120))。   然而,他们的信息密度很高,,人们可能希望如此   划分这样的化合物,或者至少要了解内部   这个词的结构,这成为一个有限的分词   任务。(Ibidem)

还有凝集语言的特殊情况;介词,所有格代词,......'附加'到'主'字;例如芬兰语,匈牙利语,土耳其语在欧洲域名。

变体样式和编码

某种语义类型的信息的变体编码例如。电话号码,日期,......的本地语法:

  

[...] 即使一个人没有处理多语言文本,也可以   申请处理来自不同国家的文本或书面   根据不同的风格习惯,必须做好准备   处理印刷差异。特别是一些项目如   电话号码显然是一种语义排序,但可以出现在很多中   格式。(MANNI:1999,p.130)

<强>其它

一个主要任务是消除周期消歧(或一般的内部消息)和其他非alpha( - 数字)符号:一段时间是这个词的一部分,保持这种方式,所以我们可以区分华盛顿州的缩写华盛顿与动词洗涤的大写形式(MANNI:1999,p。 129)。除了这样的情况,处理收缩和连字也不能被视为跨语言的标准情况(甚至忽略了丢失的空格分隔符)。

如果想要处理多语言收缩 /“cliticons”:

  • 英语:他们是我父亲的表兄弟。
  • 法语: Montrez-leàl'代理商!
  • 德语: Ich hab的ins Haus gebracht。(in仍然是一个有效的变体)

由于标记化和句子分割齐头并进,因此它们共享相同的(跨语言)问题。它可能关心/想要一个大方向:

  • Kiss,Tibor和Jan Strunk。无监督多语言句子边界检测。计算语言学32(4),p。 485-525。
  • Palmer,D。和M. Hearst。自适应多语言句子边界消歧。计算语言学,23(2),p。 241-267。
  • Reynar,J。和A. Ratnaparkhi。 1997.识别句子边界的最大熵方法。第五届应用自然语言处理会议论文集,p。 16-19。

<强>参考

(MANNI:1999)Manning Ch。 D.,H.Schütze。 1999.统计自然语言处理基础。剑桥,麻省:麻省理工学院出版社。