通过机器学习自动组合动词变位

时间:2018-10-15 20:26:17

标签: machine-learning nlp spacy

是否可以自动对属于在一起的动词词组进行分组?我想从一个很大的Wikipedia数据集中提取所有动词,根据所有时态将它们组合在一起,然后将它们放入共轭表中。

当前

  

(我)吃饭

     

(你)吃饭

     

...

过去的礼物

  

(I)吃了

     

(你)吃了

     

...

机器学习是否有可能?我发现可以使用spacy.io来识别单词是否为动词,但是我不知道如何将它们自动“分组”。

任何指针都将不胜感激!

1 个答案:

答案 0 :(得分:0)

您的问题涉及许多子问题。它将帮助您熟悉术语,以便您找到解决这些问题的现有工具和解决方案。

要执行此任务,您需要:

  1. 确定Wikipedia数据集中哪些标记是动词。
  2. 对于这些动词标记中的每一个,确定正在使用的共轭。
  3. 对于每个动词标记,请确定动词​​的引理(也称为“字典形式”)。这将告诉您令牌属于哪个“组”。

第一个任务通常由POS标记器完成。 POS标记器会扫描文本的令牌,并识别每个令牌的词性。

第二个子任务通常被称为“形态分析”,而执行该任务的工具被称为形态分析器。一些POS标记器也会为您提供此信息,您可以通过查看标记器使用的标记集来告诉您。但是,即使它们提供了共轭信息,也常常不如形态分析仪所提供的那样详细。

最后,第三个任务称为定理。大多数POS标记器和形态分析仪都会为您提供引理。

已经为所有这些任务创建了许多方法和工具。其中许多涉及机器学习方法。例如,我工作的实验室使用在监督数据集上训练的神经网络进行形态分析。但是,这些工具可能需要很长时间才能构建和调整,并且有针对主要语言(尤其是英语)的现成解决方案。

我不知道什么工具是最先进的英语工具。但是,既然您知道术语,就可以自己调查哪些工具可用。从文档页面上可以看到,Spacy确实为您提供了所需的大多数信息:它识别动词并提供引理。似乎还可以区分具有不同“标签”的某些共轭(例如“ VBG”和“ VBZ”)。在“词性标记”下有完整列表:https://spacy.io/api/annotation。不过,不确定这些标记是否可以覆盖您所关心的所有变位。