理解字符串匹配: word stemming 和 depluralization之间的确切区别是什么?
或者他们的意思是一样的吗?
答案 0 :(得分:9)
首先,词干指的是将单词缩减为词干的过程。但是,这可能意味着许多不同的事情。大多数语言学家至少区分两种方法:
删除语法,但不删除派生语素。语法词素是该词的组成部分,与其在特定句子中的语法作用有关,例如号码,案例,性别,时态,方面等。
删除两个语法和派生词素。导数语素是与其从另一个单词的推导相关的单词的组成部分,例如, “工人”中的“-er”与“工作”中的“ - ”有关。
因此, depluralization ,这是一个相当不寻常的术语,但显然是指删除多个语素(例如“计算机”末尾的“-s”),一种词干的一部分,特别是删除语法(但不是衍生)语素的一部分。
在英语中,名词的形态主要限于复数(“计算机”)和属格(第二种情况,“计算机”),因此就英语而言关注,depluralization可能被视为(几乎)与(语法)词干同义,至少在词干被应用于名词的程度上,并且在某种程度上,形容词,(例如在信息检索的背景下)。但是,无论在何处考虑动词,过去时,被动语态和其他屈折形式都会受到干扰(但不会被排除在外)。
此外,在英语以外的语言中,甚至名词也可能具有非常丰富的形态,包括诸如案例,礼貌等级或特殊种类的复数(如双重)之类的词素。然后,depluralization(如果您想要使用该术语)仅指整个词干过程的一小部分。
另一个相关术语是词形推理,它通常与词干同义使用。我发现很多人(包括我自己)要做的两个区别就是:
词干用于指代基于规则或基于机器学习的技术,该技术可删除看起来像语法的单词部分(主要是结尾部分)词素
词形还原用于表示执行相同操作的流程,但使用该语言的实际词典来处理高度不规则的表单(例如复数“女人”)
(但是,并非所有人都同意这种区别。)
答案 1 :(得分:1)
他们不一样。有一些方法来扼杀一个词,depluralization是一种策略。
只是一个简单的例子:一个词干分析者可能将“幼稚”变成“孩子”,或者将“词干”变成“词干”,而一个淡化算法则不会。“/ p>
答案 2 :(得分:1)
词干是将具有相同根的多个单词转换为一个单词。 防爆。 “猫”,“catlike”,“catty”到“cat”
Depluralization正在将多个单词转换为单数。 防爆。 “猫”到“猫”