如何自动将特定实体拆分/提取到MS Luis?

时间:2018-04-13 10:11:24

标签: luis

我目前正在与MS LUIS.ai合作。

我的字符串/话语包含英文和中文。

问题在于:

如果英语中的句子 ALL ,则在LUIS中可以正常使用。原因可能是因为一个句子由不同的单词组成,这些单词被一个"空格"分开。

然而,在中文(繁体和简体)中,句子由连接在一起并且难以分割的单词组成。

例如,用英文我可以写:

@NgModule({ declarations: [ MyApp, SomePage, MyComponent ], imports: [ ... MyComponent ], bootstrap: [IonicApp], entryComponents: [ MyApp, SomePage ], providers: [...] }) export class AppModule {} :这里有5个字。在LUIS中,我可以选择I love you so much并将其转换为实体。后来,当更多像I love you这样的单词进入LUIS时,它可以轻松识别相关意图。

但是,如果我写的话,用中文写的:

I love you:其含义与上面的英文相同。在LUIS下,它将被计为1个字。如果我想提取单词我很喜歡你(这意味着" Love / Like"),我不能在LUIS中这样做。

只有在我喜歡这样的空间喜歡之后:我很 喜歡 你我才能选择喜歡作为特定实体。

我的问题

我是否可以使用任何方法/方法/技巧,以便当有人输入join-string时,就像你在中文版中看到的那样,LUIS,LUIS将能够自动识别特定的单词作为实体,任何手动更改?

非常感谢您提供所有帮助。

1 个答案:

答案 0 :(得分:0)

为了进行机器学习,LUIS根据文化将话语分为tokens。我们无法抑制令牌化。 LUIS在字符级别标记中文并返回标记化实体,而对于英语,它为每个空格或特殊字符标记。在zh-cn culture中,LUIS期望简化的中文字符集而不是传统的字符集。 希望这会有所帮助!!