我目前正在与MS LUIS.ai合作。
我的字符串/话语包含英文和中文。
问题在于:
如果英语中的句子 ALL ,则在LUIS中可以正常使用。原因可能是因为一个句子由不同的单词组成,这些单词被一个"空格"分开。
然而,在中文(繁体和简体)中,句子由连接在一起并且难以分割的单词组成。
例如,用英文我可以写:
@NgModule({
declarations: [
MyApp,
SomePage,
MyComponent
],
imports: [
...
MyComponent
],
bootstrap: [IonicApp],
entryComponents: [
MyApp,
SomePage
],
providers: [...]
})
export class AppModule {}
:这里有5个字。在LUIS中,我可以选择I love you so much
并将其转换为实体。后来,当更多像I love you
这样的单词进入LUIS时,它可以轻松识别相关意图。
但是,如果我写的话,用中文写的:
I love you
:其含义与上面的英文相同。在LUIS下,它将被计为1个字。如果我想提取单词我很喜歡你
(这意味着" Love / Like"),我不能在LUIS中这样做。
只有在我喜歡
这样的空间喜歡
之后:我很 喜歡 你
我才能选择喜歡
作为特定实体。
我的问题:
我是否可以使用任何方法/方法/技巧,以便当有人输入join-string时,就像你在中文版中看到的那样,LUIS,LUIS将能够自动识别特定的单词作为实体,任何手动更改?
非常感谢您提供所有帮助。
答案 0 :(得分:0)
为了进行机器学习,LUIS根据文化将话语分为tokens。我们无法抑制令牌化。 LUIS在字符级别标记中文并返回标记化实体,而对于英语,它为每个空格或特殊字符标记。在zh-cn culture中,LUIS期望简化的中文字符集而不是传统的字符集。 希望这会有所帮助!!