应用错误收集

时间：2016-02-16 16:02:11

标签： database hadoop chat

为了个人兴趣，我尝试定义一个基于他学到的信息和互联网搜索的模拟AI，以便提供比系统知道更多的细节。

我举了一个孩子的例子，当他出生时，他需要学习一切，他听了很多，然后提出了一些答案。他的妈妈/爸爸告诉他答案是否合适。

为了做到这一点，我想在hadoop系统中存储大量的聊天对话，并解析所有这些对话，以确定哪些是最常见的答案。有了这个，我想构建一个神经元数据库，其中包含具有确定答案的会话类型。

所以我的问题是，我可以在互联网上合法地找到任何格式的一个或多个聊天/对话数据库吗？（文件，数据库，csv，......）

我最有可能的数据是能够正确确定答案;）

感谢您的帮助和欢呼，弗雷德里克

PS：英语不是我的母语

答案 0 :(得分：3)

There is a collection of conversational datasets。其中大多数是从公开来源收集的。对你来说，最有趣的可能是圣巴巴拉语料库（尽管它是语音对话的成绩单）或电影对话数据集。

答案 1 :(得分：1)

这是一个相当全面的人 - 人和人机文本对话数据集，以及音频对话数据集。 https://breakend.github.io/DialogDatasets/

答案 2 :(得分：0)

拥有聊天数据集的最佳方法是自行生成。你知道你到底想要什么。但是IRC有一些聊天数据集，其中一个已用于this研究。

答案 3 :(得分：0)

对于位于https://breakend.github.io/DialogDatasets/的广泛的人，人机交互资源库，包括从CMU的研究中心提供的“让我们去”对话框，信贷从上方转到“默认图片”的答案。 https://github.com/DialRC/LetsGoDataset，这些资源也用于在https://any.company/

上训练会话代理。