我正在浏览documentation并测试Google's Natural Language API并注意到它会导致许多人,事件,组织和位置不正确 - 它似乎使用维基百科作为主要数据源,所以如果它不在维基百科中,似乎无法识别各种单词的类型。此外,如果某些单词出现在名称(专有名词)中,它似乎总是将某个实体标识为某种类型并不总是正确的。
例如:“国会”似乎总是被认定为组织[政府],即使它是事件名称的一部分。名称“WordCamp”显示为位置,但它是一个事件。
有没有办法培训自然语言引擎或提供一组自定义的组织,地点,事件等,以便为不太受欢迎的实体提供更准确的类型信息?
答案 0 :(得分:1)
我是该产品的产品经理。目前不支持自定义实体类型。根据你关于没有获得某些实体类型的评论,对于任何NLP系统都是如此,但我们的目标是不断改进。我们正在努力为您提供有关我们错误的实例的反馈,以提高我们的准确性并尽快分享详细信息。请注意,我们已经在多个数据源上训练我们的模型,而不仅仅是Wikipedia数据。 API为检测到的实体返回最相关的维基百科文章,因此如果实体有多种解释,我们将只返回最常用的解释。