我已使用带有spacy后端的FastText为北印度语模型构建了模型。 我按照本教程使用FastText构建模型。
我还通过以下命令将我的模型与spacy链接
python -m spacy link nl_model hi
现在我在使用印地文语言方面找不到任何帮助,例如我需要使用哪种配置文件,在何处导入印地文模型以及如何进行? 我也有一个疑问,例如印地文的data.json文件是什么样子,以及我们将如何使用实体和意图,这些实体和意图的名称也应使用印地语还是英语? 可以帮忙进一步处理吗?我被困在这里。 我必须仅使用RASA Stack在印地文中构建一个ChatBot。
提前谢谢。...
答案 0 :(得分:3)
您似乎已经使用spaCy成功地学习了var uniqueItems = [...new Set(data)];
模型。下一步是编写如下配置文件:
hi
如果刚刚学习的language: "hi"
pipeline:
- name: "tokenizer_whitespace"
- name: "ner_crf"
- name: "ner_synonyms"
- name: "intent_featurizer_count_vectors"
- name: "intent_classifier_tensorflow_embedding"
模型也具有令牌生成器,则可以将hi
替换为tokenizer_whitespace
。
我应该提到,基于tensorflow的rasa的新意图分类器不需要您的tokenizer_spacy
模型的字向量,它会从头开始提取字向量,请参见here。对于实体提取,您也不需要hi
模型,只需令牌生成器即可为您完成工作!
因此,总的来说,即使没有hi
模型,您也可以拥有机器人!
培训数据文件应为json或markdown,如doc中所述。我认为您的意图和实体的名称应使用英语,但很明显,示例查询可以使用任何utf-8语言(例如印地文)。
然后,您可以使用文档中介绍的不同方法来学习模型。 例如:
hi
您可以在doc中找到一个快速入门。