标记化和模式匹配如何在中文中起作用。

时间:2011-10-02 14:21:09

标签: java utf-8 internationalization locale cjk

这个问题涉及计算和中文知识。 我有中文查询,我有一个单独的中文短语列表我需要能够找到这些查询中的哪些有这些短语。

在英语中,这是一项非常简单的任务。我根本不懂中文,它的语义,语法规则等等。如果这个论坛中有人也懂中文,可以帮助我对中文有一些基本的了解和模式匹配。

我有一个基本的看法,即在中文中一个单元(中间没有任何空格)实际上可能意味着不止一个单词(这是正确的吗?)。那么,是否存在关于多个单词如何在它们之间组合以作为一个单元脱颖而出的规则。这很令人困惑,因为中文写作中有空格,即使没有空格的单位也有多个单词。

从计算的角度,模式匹配等解释中文的任何链接都非常有用。

2 个答案:

答案 0 :(得分:10)

  

我有一个基本的看法,即在中文中一个单元(中间没有任何空格)实际上可能意味着不止一个单词(这是正确的吗?)。

在中国空间很少使用,例如:

  

递归(英语:Recursion),又译为递回,在数学与计算机科学中,是指在函数的定义中使用函数自身的方法。递归一词还较常用于描述以自相似方法重复事物的过程。例如,当两面镜子相互之间近似平行时,镜中嵌套的图像是以无限递归的形式出现的。

你会注意到看似空格的东西实际上只是中文标点字符,它们的填充比平时要多。

  

那么是否有任何关于如何将多个单词组合在一起以脱颖而出作为一个单元的规则。这很令人困惑,因为中文写作中有空格,即使没有空格的单位也有多个单词。

以这种方式思考:一个汉字非常,非常粗略类似于一个英文单词。通常需要将两个或更多个字符组合以形成一个单词,并且每个单独的字符可能意味着根据上下文完全不同的东西。

为了对中文文本进行有意义的标记,您必须将考虑到这些内容的单词分段。

请参阅斯坦福NLP小组的Chinese Natural Language Processing and Speech Processing

答案 1 :(得分:1)

Ken Lunde的书CJKV Information Processing可能值得一看。 基本的单词顺序是主语 - 动词 - 宾语,但也参见http://en.wikipedia.org/wiki/Chinese_grammar中的“主题突出”