我在学术上问这个问题,我想大声问一个非常重要的问题,让社区试着回答它。我们是否可以构建一个系统来生成一个场景,以便在一个真实的匿名组视频聊天室中播放,该聊天室可以读取键入的文本并使用聊天机器人进行响应?
实时互联网视频通常模糊且分辨率较低。人们无法在远方的场景中弄清楚许多细节。可以使用现代软件工具渲染场景,这些工具在不移动时看起来非常真实。让它们逼真地移动是一大块模拟软件。
面部可以由24个系统的群集以每秒24帧的速度呈现,每秒一帧。然后,视频将从决定生成哪个面部表情的点开始有1秒的滞后。这些面部表情及其产生是一个关键问题。皮肤真实性要求是图形界解决的问题。
几位研究人员对面部表情进行了分类。它们也可以渲染,这在现代计算机图形文献中已有所体现。如果我们知道哪些适合特定情况,我们就可以做到。
Chatbots已经使用了几十年。现在存在相当“聪明”的聊天程序,它们将以合理的方式阅读所要求的内容并进行回复。他们总是用文本来做这件事,但是文本阅读器软件可以用人声说出来,语音识别软件每年都在变得越来越好。
我建议的是,连接所有这些不同的软件开发部分并创建一些真正令人惊叹的图灵测试打击器应该是非常基础的。
此程序可以进入虚拟空间并显示逼真的环境,就像在其他参与者的网络摄像头上一样。它可以观看他们的面部表情,它可以听他们的讲话,它可以阅读他们的文字。然后它可以创建一个响应,然后输入或回复给组。选择应对什么是一个难以解决的问题,甚至大多数人都没有掌握。我们可以通过大量的工作来完成它。
图灵测试是关于证明传播者是一个人,但只是在证明它足以愚弄人类法官的意义上的“证据”。如果人类法官只是每个人,他们就不太可能采用严格的正式程序。猜测或摔跤就足够了。
你认为我们能做到吗?
这个计划有缺陷吗?以这种方式欺骗普通观众是否存在道德含义?我们可以通过生成个人智能助理来赚取数百万美元吗?
答案 0 :(得分:2)
我们无法通过传统的基于图灵测试的文本。在顶部添加视频无关紧要。
答案 1 :(得分:2)
我不同意你的问题,但我觉得有必要指出你严重误解了图灵测试的重点。它与看起来像人类或听起来像一个人没有任何关系。
事实上,大多数提议的测试涉及延时电传终端,因此在测试的实际通信之外,尽可能少的信息传输。
我讨厌破坏你的泡沫,但是当前这一代聊天机器人,甚至是实验室中最先进的AI都远未超过图灵测试。很快就会发现那里没有真正的人。
答案 2 :(得分:2)
该领域已有研究进展。数字化身已经取得了一些成功。一些关键点:
现代PC可以实时呈现令人信服的人脸,没问题。只需放入一张中等gfx卡和一个好模型就可以了。 (例如,参见Dawn。)
目前的语音生成软件可以生成流畅的文本,并且能够正确发音。由于演讲者没有情绪,它仍然有点单调。 (见this article)。
有研究让机器“感觉”。我说“感觉”因为它基本上只是一个带有几个变量的小程序(“愤怒”,“恐惧”,“饥饿”,“无聊”,“悲伤”......)以及一系列复杂影响的规则这些变量。 (参见Wikipedia article for details)。
现在的主要问题是我们不知道情绪是什么。它们只是漂浮在大脑某些部位的分子量吗?如果是这样,哪些分子和大脑的哪个部分?今天,神经科学家试图通过观察MRT图像来预测心理状态。要理解这意味着什么,这里有一个类比:他们试着通过用肉眼观察月亮在地球上的光分布来猜测人类在做什么。
所以我们不明白什么是情绪。下一个障碍是情感在没有背景的情况下毫无意义。只需将变量sadness
的值设置为1.0,就可以轻松编写感到“悲伤”的程序。但如果没有理由,那会觉得很奇怪。所以程序必须能够跟随对话,建立它的心理形象(人们在谈论和他们现在感觉如何),然后按照现行规则调整自己的心理状态各自的小组。
你知道当你第一次加入一个新小组并试图抓住正在发生的事情以及你应该如何表现时的感觉。这对人类来说是一项艰巨的任务,对于一项计划来说更是如此。
有一篇文章"Können wir eine Seele simulieren?"(仅限Geman,但output of Google translate非常好。)
答案 3 :(得分:1)
最大的问题不是呈现外观(视觉或声音),而是呈现智慧和情感。
你的建议是实时怪物史莱克的前端。但后端呢?