如何在RASA NLU中使用Hindi模型?

时间:2018-10-01 07:14:25

标签: spacy rasa-nlu fasttext rasa-core

我已使用带有spacy后端的FastText为北印度语模型构建了模型。 我按照本教程使用FastText构建模型。

This URL

我还通过以下命令将我的模型与spacy链接

python -m spacy link nl_model hi

模型已成功链接,您可以在下图中签入 enter image description here

现在我在使用印地文语言方面找不到任何帮助,例如我需要使用哪种配置文件,在何处导入印地文模型以及如何进行? 我也有一个疑问,例如印地文的data.json文件是什么样子,以及我们将如何使用实体和意图,这些实体和意图的名称也应使用印地语还是英语? 可以帮忙进一步处理吗?我被困在这里。 我必须仅使用RASA Stack在印地文中构建一个ChatBot。

提前谢谢。...

1 个答案:

答案 0 :(得分:3)

您似乎已经使用spaCy成功地学习了var uniqueItems = [...new Set(data)]; 模型。下一步是编写如下配置文件:

hi

如果刚刚学习的language: "hi" pipeline: - name: "tokenizer_whitespace" - name: "ner_crf" - name: "ner_synonyms" - name: "intent_featurizer_count_vectors" - name: "intent_classifier_tensorflow_embedding" 模型也具有令牌生成器,则可以将hi替换为tokenizer_whitespace

我应该提到,基于tensorflow的rasa的新意图分类器不需要您的tokenizer_spacy模型的字向量,它会从头开始提取字向量,请参见here。对于实体提取,您也不需要hi模型,只需令牌生成器即可为您完成工作! 因此,总的来说,即使没有hi模型,您也可以拥有机器人!

培训数据文件应为json或markdown,如doc中所述。我认为您的意图和实体的名称应使用英语,但很明显,示例查询可以使用任何utf-8语言(例如印地文)。

然后,您可以使用文档中介绍的不同方法来学习模型。 例如:

hi

您可以在doc中找到一个快速入门。