我现在正在进入聊天机器人主题。我已经使用rasa nlu和chatterbot进行了一些项目。
现在,我要进行下一步,并想用word2vec或seq2vec创建一个。建立我自己的语料库,并使用Reddit或Wikipedia语料库对其进行训练。
不幸的是,我在网上找不到很好的阅读材料和教程。我的目标是创建自己的语料库(FAQ语料库和有关我大学的常规信息)。
有人对此主题有好的读物吗?更重要的是,建立语料库的最佳方法是什么?
我可以简单地将所有答案放入csv吗?
我需要在csv中做问题(A列)-回答(B列)
我可以将所有信息作为连续文本放置在文本文件中吗?
是否最好像使用rasa nlu一样进行操作?用整数,然后可能的答案?
非常感谢您的所有答案