应用错误收集

为什么每种语言都需要一个tokenizer？

时间：2013-06-26 07:54:16

标签： text lucene nlp semantics

处理文本时，为什么需要专门用于该语言的标记化器？

不会通过空格进行标记就足够了吗？什么情况下不使用简单的空格标记化？

3 个答案:

答案 0 :(得分：18)

标记化是从表面文本中识别语言上有意义的单位（LMU）。

中文：如果您在新加坡只能前往一间夜间娱乐场所，Zouk必然是您的不二之选。

英语：如果你只有时间在新加坡的一个俱乐部，那么它只需要是Zouk。

印度尼西亚语：Jika Anda hanya memiliki waktu untuk satu klub di Singapura，pergilah ke Zouk。

日语：シンガポールで一つしかクラブに行く时间がなかったとしたら，このズークに行くべきです。

韩语：싱가포르에서클럽한군데밖에갈시간이없다면，Zouk를선택하세요。

越南语：Nếubạnchỉcóthờigianghéthămmộtcúumạcbộộ新加坡thìhãyđếnZouk。

文字来源：http://aclweb.org/anthology/Y/Y11/Y11-1038.pdf

上面的并行文本的标记化版本应如下所示：

enter image description here

对于英语，这很简单，因为每个LMU都是 以空格分隔/分隔 。但是在其他语言中，情况可能并非如此。对于大多数罗马语言，例如印度尼西亚语，它们具有相同的空白分隔符，可以轻松识别LMU。

然而，有时LMU是由空格分隔的两个“单词”的组合。例如。在上面的越南语句子中，您必须将thời_gian（这意味着时间英文）作为一个标记而不是2个标记。将这两个单词分成2个令牌会产生无LMU （例如http://vdict.com/th%E1%BB%9Di,2,0,0.html）或错误的LMU （例如http://vdict.com/gian,2,0,0.html）。因此，正确的越南语标记器会将thời_gian输出为一个标记，而不是thời和gian。

对于其他一些语言，他们的拼字法可能没有空格来划分“单词”或“标记”，例如中国人，日本人，有时是韩国人在这种情况下，标记化是计算机识别LMU所必需的。通常，LMU附加了语素/变形，因此有时morphological analyzer比自然语言处理中的标记化器更有用。

答案 1 :(得分：5)

有些语言（如中文）根本不使用空格来分隔单词。

其他语言将使用不同的标点符号 - 例如，撇号可能是也可能不是单词的一部分。

案例折叠规则因语言而异。

停止词和词干在语言之间是不同的（虽然我想我在这里偏离了标记器到分析器）。

Bjerva编辑：此外，许多语言连接复合名词。是否应将其标记为多个令牌不能仅使用空格来轻松确定。

答案 2 :(得分：3)

问题还暗示“什么是一个词？”并且可以完全针对特定任务（甚至将多语言视为一个参数）。这是我对一个包含回答的尝试：

（缺失）单词之间的空格

许多语言都没有在单词之间放置空格，所以打破空白的基本分词算法是没有用的一点都不这些语言包括主要的东亚语言/文字，例如中国人，日本人和泰国人。古希腊语也是由没有词空间的古希腊人。引入了空间（一起那些后来的人带有重音符号等。在这样的语言，分词是一个更重要和更具挑战性的任务。（MANNI：1999，p.129）

<强>化合物

德语复合名词被写成单个词，例如 “Kartellaufsichtsbehördenangestellter”（“反托拉斯”的一名员工代理“）和事实上的化合物是单个词 - 语音学（参见（MANNI：1999，p.120））。然而，他们的信息密度很高，，人们可能希望如此划分这样的化合物，或者至少要了解内部这个词的结构，这成为一个有限的分词任务。（Ibidem）

还有凝集语言的特殊情况;介词，所有格代词，......'附加'到'主'字;例如芬兰语，匈牙利语，土耳其语在欧洲域名。

变体样式和编码

某种语义类型的信息的变体编码例如。电话号码，日期，......的本地语法：

[...] 即使一个人没有处理多语言文本，也可以申请处理来自不同国家的文本或书面根据不同的风格习惯，必须做好准备处理印刷差异。特别是一些项目如电话号码显然是一种语义排序，但可以出现在很多中格式。（MANNI：1999，p.130）

<强>其它

一个主要任务是消除周期消歧（或一般的内部消息）和其他非alpha（ - 数字）符号：一段时间是这个词的一部分，保持这种方式，所以我们可以区分华盛顿州的缩写华盛顿与动词洗涤的大写形式（MANNI：1999，p。 129）。除了这样的情况，处理收缩和连字也不能被视为跨语言的标准情况（甚至忽略了丢失的空格分隔符）。

如果想要处理多语言收缩 /“cliticons”：

英语：他们是我父亲的表兄弟。
法语： Montrez-leàl'代理商！
德语： Ich hab的ins Haus gebracht。（in仍然是一个有效的变体）

由于标记化和句子分割齐头并进，因此它们共享相同的（跨语言）问题。它可能关心/想要一个大方向：

Kiss，Tibor和Jan Strunk。无监督多语言句子边界检测。计算语言学32（4），p。 485-525。
Palmer，D。和M. Hearst。自适应多语言句子边界消歧。计算语言学，23（2），p。 241-267。
Reynar，J。和A. Ratnaparkhi。 1997.识别句子边界的最大熵方法。第五届应用自然语言处理会议论文集，p。 16-19。

<强>参考

（MANNI：1999）Manning Ch。 D.，H.Schütze。 1999.统计自然语言处理基础。剑桥，麻省：麻省理工学院出版社。