是否有一种算法可以计算NLP中单词抽象度的数字等级?

时间:2018-11-18 18:45:26

标签: python nlp wordnet

是否有一种算法可以自动计算单词抽象度的数字等级。例如,该算法的评分为1,甜甜圈为0,而谦虚为0.5 ..(这些是示例值)

从某种意义上讲,抽象词是指与立即感知(例如经济学,计算和争议)相距甚远的思想和观念。另一面的具体词指的是我们可以直接用感官感知的事物,事件和属性,例如树木,步行和红色。

1 个答案:

答案 0 :(得分:2)

我不知道abstractness的定义,也没有计算它的算法。

但是,我将使用几个方向作为代理

  1. 频率-抽象概念在普通演讲中可能很少见,因此简单的idf应该有助于识别稀有单词。

  2. 词源-英语中的常用词通常源于日耳曼语,而更多的技术性词通常是从法语/拉丁语中借来的。

  3. 监督学习-如果您有Wikipedia文章,您会发现abstract,那么常见的短语或单词也可能会描述类似的抽象概念。训练分类器可以是得分的一种方式。

关于什么是抽象的,什么是具体的没有根本的真理,尤其是当您试图对其进行量化时。 我建议将这些代理汇总为您认为对您的需求有用的指标。​​