Question

我已使用带有spacy后端的FastText为北印度语模型构建了模型。我按照本教程使用FastText构建模型。

我还通过以下命令将我的模型与spacy链接

python -m spacy link nl_model hi

模型已成功链接，您可以在下图中签入

现在我在使用印地文语言方面找不到任何帮助，例如我需要使用哪种配置文件，在何处导入印地文模型以及如何进行？我也有一个疑问，例如印地文的data.json文件是什么样子，以及我们将如何使用实体和意图，这些实体和意图的名称也应使用印地语还是英语？可以帮忙进一步处理吗？我被困在这里。我必须仅使用RASA Stack在印地文中构建一个ChatBot。

提前谢谢。...

Answer 1

您似乎已经使用spaCy成功地学习了var uniqueItems = [...new Set(data)];模型。下一步是编写如下配置文件：

hi

如果刚刚学习的language: "hi" pipeline: - name: "tokenizer_whitespace" - name: "ner_crf" - name: "ner_synonyms" - name: "intent_featurizer_count_vectors" - name: "intent_classifier_tensorflow_embedding"模型也具有令牌生成器，则可以将hi替换为tokenizer_whitespace。

我应该提到，基于tensorflow的rasa的新意图分类器不需要您的tokenizer_spacy模型的字向量，它会从头开始提取字向量，请参见here。对于实体提取，您也不需要hi模型，只需令牌生成器即可为您完成工作！因此，总的来说，即使没有hi模型，您也可以拥有机器人！

培训数据文件应为json或markdown，如doc中所述。我认为您的意图和实体的名称应使用英语，但很明显，示例查询可以使用任何utf-8语言（例如印地文）。

然后，您可以使用文档中介绍的不同方法来学习模型。例如：

hi

您可以在doc中找到一个快速入门。

如何在RASA NLU中使用Hindi模型？

1 个答案: