为什么语音识别没有提升?

时间:2009-07-09 09:54:21

标签: algorithm speech-recognition

算法设计人员很难解决这个问题的主题有多难?

真的那么复杂吗?

我很难理解为什么这个话题如此成问题。谁能举个例子来说明为什么会这样呢?

21 个答案:

答案 0 :(得分:40)

听觉处理是一项非常复杂的任务。人类进化已经产生了一个非常好的系统,我们没有意识到它有多好。如果三个人同时与你交谈,你将能够专注于一个信号并丢弃其他信号,即使它们更响亮。噪音也很好丢弃。事实上,如果您听到人声向后播放,听觉系统的第一阶段会将此信号发送到与真实语音信号不同的处理区域,因为系统会将其视为“无语音”。这是人类具有突出能力的一个例子。

语音识别从70年代开始迅速发展,因为研究人员正在研究语音的产生。这是一个更简单的系统:声带是否兴奋,声带的共振......这是一个易于理解的机械系统。这种方法的主要产品是cepstral analysis。这导致自动语音识别(ASR)达到可接受的结果。但这是一种次优方法。噪音分离是非常糟糕的,即使它在干净的环境中或多或少地工作,它也不会在背景中与嘈杂的音乐一起工作,而不像人类那样。

最佳方法取决于对听觉系统的理解。它在耳蜗的第一阶段,下丘......还涉及大脑。我们对此并不了解。这是范式的一个艰难变化。

Hynek Hermansky教授在a paper中比较了研究的当前状态以及人类想要飞行的时间。我们不知道秘密是什么 - 羽毛?翅膀拍打? - 直到我们发现伯努利的力量。

答案 1 :(得分:37)

因为如果人们发现很难理解其他具有强烈口音的人,为什么你认为计算机会更好呢?

答案 2 :(得分:18)

我记得读过微软有一个团队致力于语音识别,他们称自己为“Wreck a Nice Beach”团队(由他们自己的软件给他们的名字)。

要将语音转换为单词,它并不像映射离散声音那么简单,也必须要理解语境。该软件需要具有一生编码的人类经验。

答案 3 :(得分:9)

这种问题比仅语音识别更普遍。 它也存在于视觉处理,自然语言处理,人工智能......中。

语音识别受semantic gap问题的影响:

  

语义差距表征了   两种描述之间的差异   不同语言的对象   例如,表示   语言或符号。在电脑里   科学,这个概念是相关的   每当普通的人类活动,   观察和任务   转入计算   表示

在音频波形和文本词之间,差距很大,

在这个词及其含义之间,它甚至更大......

答案 4 :(得分:6)

beecos iyfe peepl很难找到uvver peepl wif e strang acsent wie doo yoo fink compootrs wyll bee ani bettre ayt it?

我敢打赌,花了你半秒的时间才弄明白我打算输入的是什么,而且所有这些都是以不同的'重音'重复西蒙斯的回答。处理能力还没有,但它已经到了那里。

答案 5 :(得分:6)

语言的多样性将成为主要因素,使其变得困难。方言和重音会使这更复杂。还有,背景。这本书被读了。这本书是红色的。你如何确定差异。这需要额外的努力,这样可以更容易地首先输入内容。

现在,如果更有必要,可能会有更多的努力,但其他形式的数据输入的进展如此迅速,以至于认为没有必要。

当然,有些地方会很棒,甚至非常有用或有用。您双手已满或无法查看屏幕输入的情况。帮助残疾人等。但其中大多数是利基市场,有自己的解决方案。也许其中一些人正在努力解决这个问题,但大多数使用计算机的环境并不适合进行语音识别。我更喜欢安静的工作环境。对计算机的无休止的喋喋不休会使串音成为现实问题。

除此之外,除非您在计算机上指示散文,否则使用键盘,鼠标或触摸可以更轻松,更快速地进行任何其他类型的输入。我曾尝试使用语音输入进行编码。从头到尾都是痛苦的。

答案 6 :(得分:3)

基本问题是人类语言含糊不清。因此,为了理解语音,计算机(或人)需要理解所说内容的背景。这种背景实际上是说话者和听众所居住的物理世界。并且没有任何人工智能程序能够充分了解物理世界。

答案 7 :(得分:3)

因为Lernout&Hauspie破产了:)

(对不起,作为比利时人,我无法抗拒)

答案 8 :(得分:2)

语音合成本身非常复杂 - 许多参数被组合以形成结果语音。即使对于人们来说,将它分开也很难 - 有时候你会误解一个词而不是另一个词。

答案 9 :(得分:1)

你自己说过,算法设计师正在研究它......但语言和语言不是算法结构。它们是高度复杂的人类系统发展的高峰期,涉及概念,元概念,语法,异常,语法,音调,情绪,神经元以及激素活动等。

语言需要一种高度启发式的方法,这就是为什么进展缓慢,前景可能不太乐观。

答案 10 :(得分:1)

为了很好地识别语音,你需要知道人们的意思 - 计算机根本就不存在。

答案 11 :(得分:1)

我曾向我的导师提出过类似的问题;我向他询问了一个类似于制作语音到文本转换器的挑战。在他给出的答案中,他让我发音'p'和'b'。然后他说他们在一开始的很短的时间内有所不同,然后他们听起来很相似。我的观点是,甚至很难识别出声音是什么,认识到声音会更难。另外,请注意,一旦录制了人的声音,它就是您存储的数字。想象一下,尝试找到像重音,频率和其他参数这样的指标,这些指标可用于识别除了数字矩阵等输入之外的语音。计算机擅长数字处理等,但语音不是真正的“数字”。你需要用数字编码语音,然后对它们进行所有计算。

答案 12 :(得分:1)

大多数时候,我们人类基于背景理解。因此,一个特定的句子与整个对话是一致的,不幸的是,计算机在这个意义上有很大的障碍。它只是试图捕捉它之间没有什么字。

我们会理解一个外国人,他的英语口音非常差,可能会猜到他想说的是什么,而不是他实际说的是什么。

答案 13 :(得分:1)

由于他们通过1-800-GOOG411收集语音数据,我预计Google将来会取得一些进展

答案 14 :(得分:0)

我的G1上有谷歌语音搜索功能,效果非常好。答案是,这个领域正在推进,但你还没注意到!

答案 15 :(得分:0)

如果能够以比人脑更少的MIPS进行语音识别,我们真的可以与动物交谈。

如果他们不需要做这项工作,进化就不会把所有这些卡路里都花在灰质上。

答案 16 :(得分:0)

计算机开始时甚至不擅长自然语言处理。他们很擅长匹配但是当涉及到推断时,它会变得毛茸茸。

然后,试图从数百种不同的口音/变形中找出相同的单词,它突然显得不那么简单。

答案 17 :(得分:0)

口语是上下文敏感的,含糊不清的。计算机不能处理模糊的命令。

答案 18 :(得分:0)

我不同意这个问题的假设 - 我最近已经介绍了微软的语音识别并给我留下了深刻的印象。它可以在几分钟后学习我的声音,并且通常可以正确识别常用词。它还允许添加新单词。它当然可用于我的目的(理解化学)。

区分识别(单词)标记和理解它们的含义。

我还不了解其他语言或操作系统。

答案 19 :(得分:0)

问题是有两种类型的语音识别引擎。像龙这样受过演讲者训练的人有利于听写。他们可以很准确地识别几乎任何说话文本,但需要(a)用户进行训练,以及(b)一个好的麦克风。

与扬声器无关的语音录制引擎最常用于电话。它们不需要用户“训练”,但必须提前知道预期的单词。创建这些语法(并处理错误)的应用程序开发工作量巨大。由于我们的公共电话网络的历史限制,电话仅限于4Khz带宽。这种有限的音频质量极大地妨碍了语音录制引擎“听到”人们所说的内容的能力。诸如“六”或“七”之类的数字包含ssss声音,这对于引擎来说尤其难以区分。这意味着识别最基本的识别任务之一的数字串是有问题的。添加区域口音,其中“九”在某些地方发音为“nan”,精确度确实受到影响。

最好的希望是结合图形和语音rec的接口。想想你可以用你的声音控制的iPhone应用程序。

答案 20 :(得分:0)

这不是我的领域,但我相信它正在前进,只是缓慢。

我相信西蒙的回答在某种程度上是正确的:问题的一部分是没有两个人在计算机被识别的模式方面说话相似。因此,很难分析语音。