虚拟助手-> LUIS,QnA,Dispatcher最佳实践

时间:2020-01-31 15:09:43

标签: azure nlp botframework azure-language-understanding qnamaker

对于使用LUIS,QnA Maker(尤其是分派器)面临的某些问题,我有一些关于“最佳实践”的问题:

1)如果分派器中的发音超过15k,是否有最佳实践?这看起来像是LUIS应用程序的局限性,但从长远来看,该模型的可扩展性将令人怀疑。

2)Bing Bing拼写检查LUIS会更改名称和姓氏,例如,如何避免这种情况?我猜我们在谈论ChatBots时必须进行Bing拼写检查,因为拼写错误总是在门后,但使用它来命名很危险。

3)开箱即用不支持交叉验证,您会使用自定义代码将数据拆分为折叠(这并不困难),使用命令行在k-1 / k折叠上训练并发布模型,然后将k折语音一一发送给API。批量上传仅通过用户界面https://cognitive.uservoice.com/forums/551524-language-understanding-luis/suggestions/20082157-add-api-to-batch-test-model受支持,并且仅限于1,000个发音的测试集。如果我们采用一对一的方式,则每1k交易我们需要支付$ 1,50,https://azure.microsoft.com/de-de/pricing/details/cognitive-services/language-understanding-intelligent-services/,这意味着要获得5折的交叉验证指标,我们可以为单笔交易支付约20 $试用我们当前的数据,如果我们添加更多数据,则更多。

4)模型是一个黑盒子,如果需要的话,它不能使我们使用自定义功能。

1 个答案:

答案 0 :(得分:2)

我将尽我所能,尽力解决您的疑虑:

1)根据LUIS文档,

enter image description here

因此,您不能超过限制。如果是Dispatch应用,如果总话语量超过15k,则Dispatch将对这些话语进行下采样以将其保持在15k以下。 CLI有一个可选参数(--doAutoActiveLearning)可以进行自动主动学习,该参数将智能地降低采样率(删除无关的语音)。

-doAutoActiveLearning :(可选)默认为false。 LUIS对训练集大小的限制是15000。当LUIS应用具有更多的训练话语时,Dispatch的自动主动学习过程可以智能地对这些话语进行采样。

2)Bing拼写检查可帮助用户在LUIS预测发音的分数和实体之前纠正发音中的拼写错误的单词。但是,如果要避免使用Bing Spell Check API服务,则您将需要添加正确和不正确的拼写,这可以通过两种方式完成:

  • 带有所有不同拼写的标语示例语音,以便LUIS可以学习正确的拼写和错别字。与使用拼写检查器相比,此选项需要更多的标签工作。
  • 创建包含所有单词变体的短语列表。使用此解决方案,您无需在示例话语中标记单词变体。

3)根据当前的documentation,每个测试最多允许1000声。数据集是JSON格式的文件,最多包含1,000个带标签的非重复性话语。一个应用程序最多可以测试10个数据集。 如果您需要进行更多测试,请删除一个数据集,然后添加一个新数据集。我建议您将其作为功能请求报告给feedback forum

希望这会有所帮助。