为了个人兴趣,我尝试定义一个基于他学到的信息和互联网搜索的模拟AI,以便提供比系统知道更多的细节。
我举了一个孩子的例子,当他出生时,他需要学习一切,他听了很多,然后提出了一些答案。他的妈妈/爸爸告诉他答案是否合适。
为了做到这一点,我想在hadoop系统中存储大量的聊天对话,并解析所有这些对话,以确定哪些是最常见的答案。有了这个,我想构建一个神经元数据库,其中包含具有确定答案的会话类型。
所以我的问题是,我可以在互联网上合法地找到任何格式的一个或多个聊天/对话数据库吗? (文件,数据库,csv,......)
我最有可能的数据是能够正确确定答案;)
感谢您的帮助和欢呼, 弗雷德里克
PS:英语不是我的母语
答案 0 :(得分:3)
There is a collection of conversational datasets。其中大多数是从公开来源收集的。对你来说,最有趣的可能是圣巴巴拉语料库(尽管它是语音对话的成绩单)或电影对话数据集。
答案 1 :(得分:1)
这是一个相当全面的人 - 人和人机文本对话数据集,以及音频对话数据集。 https://breakend.github.io/DialogDatasets/
答案 2 :(得分:0)
拥有聊天数据集的最佳方法是自行生成。你知道你到底想要什么。但是IRC有一些聊天数据集,其中一个已用于this研究。
答案 3 :(得分:0)
对于位于https://breakend.github.io/DialogDatasets/的广泛的人,人机交互资源库,包括从CMU的研究中心提供的“让我们去”对话框,信贷从上方转到“默认图片”的答案。 https://github.com/DialRC/LetsGoDataset,这些资源也用于在https://any.company/
上训练会话代理。