是否可以自动对属于在一起的动词词组进行分组?我想从一个很大的Wikipedia数据集中提取所有动词,根据所有时态将它们组合在一起,然后将它们放入共轭表中。
当前
(我)吃饭
(你)吃饭
...
过去的礼物
(I)吃了
(你)吃了
...
机器学习是否有可能?我发现可以使用spacy.io来识别单词是否为动词,但是我不知道如何将它们自动“分组”。
任何指针都将不胜感激!
答案 0 :(得分:0)
您的问题涉及许多子问题。它将帮助您熟悉术语,以便您找到解决这些问题的现有工具和解决方案。
要执行此任务,您需要:
第一个任务通常由POS标记器完成。 POS标记器会扫描文本的令牌,并识别每个令牌的词性。
第二个子任务通常被称为“形态分析”,而执行该任务的工具被称为形态分析器。一些POS标记器也会为您提供此信息,您可以通过查看标记器使用的标记集来告诉您。但是,即使它们提供了共轭信息,也常常不如形态分析仪所提供的那样详细。
最后,第三个任务称为定理。大多数POS标记器和形态分析仪都会为您提供引理。
已经为所有这些任务创建了许多方法和工具。其中许多涉及机器学习方法。例如,我工作的实验室使用在监督数据集上训练的神经网络进行形态分析。但是,这些工具可能需要很长时间才能构建和调整,并且有针对主要语言(尤其是英语)的现成解决方案。
我不知道什么工具是最先进的英语工具。但是,既然您知道术语,就可以自己调查哪些工具可用。从文档页面上可以看到,Spacy确实为您提供了所需的大多数信息:它识别动词并提供引理。似乎还可以区分具有不同“标签”的某些共轭(例如“ VBG”和“ VBZ”)。在“词性标记”下有完整列表:https://spacy.io/api/annotation。不过,不确定这些标记是否可以覆盖您所关心的所有变位。