应用错误收集

您的问题涉及许多子问题。它将帮助您熟悉术语，以便您找到解决这些问题的现有工具和解决方案。

要执行此任务，您需要：

确定Wikipedia数据集中哪些标记是动词。
对于这些动词标记中的每一个，确定正在使用的共轭。
对于每个动词标记，请确定动词的引理（也称为“字典形式”）。这将告诉您令牌属于哪个“组”。

第一个任务通常由POS标记器完成。 POS标记器会扫描文本的令牌，并识别每个令牌的词性。

第二个子任务通常被称为“形态分析”，而执行该任务的工具被称为形态分析器。一些POS标记器也会为您提供此信息，您可以通过查看标记器使用的标记集来告诉您。但是，即使它们提供了共轭信息，也常常不如形态分析仪所提供的那样详细。

最后，第三个任务称为定理。大多数POS标记器和形态分析仪都会为您提供引理。

已经为所有这些任务创建了许多方法和工具。其中许多涉及机器学习方法。例如，我工作的实验室使用在监督数据集上训练的神经网络进行形态分析。但是，这些工具可能需要很长时间才能构建和调整，并且有针对主要语言（尤其是英语）的现成解决方案。

我不知道什么工具是最先进的英语工具。但是，既然您知道术语，就可以自己调查哪些工具可用。从文档页面上可以看到，Spacy确实为您提供了所需的大多数信息：它识别动词并提供引理。似乎还可以区分具有不同“标签”的某些共轭（例如“ VBG”和“ VBZ”）。在“词性标记”下有完整列表：https://spacy.io/api/annotation。不过，不确定这些标记是否可以覆盖您所关心的所有变位。

通过机器学习自动组合动词变位

1 个答案: