我不确定Stackoverflow是否适合这样做。如果不是,请引导我到正确的地方。
我想创建一个可以运行并聆听我的声音并识别我说的内容的脚本。
它会有一些确切的命令,比如“播放我的音乐”等。
对我来说,看起来我将在这个项目中有3个不同的部分:
我做了一些研究,但这有点超出了我的理解。 This post可能是我的起点,但它已经有3年了。
我认为从那时起出现了许多新技术,我想听听你们对它的了解。
关于技术,我愿意使用任何必要的,但不是.NET,我想避免使用JAVA。性能不是问题,我最喜欢简单而不是性能。 我正在使用Mac,我希望它能在Mac和Linux环境中运行。
我会在公共存储库中将它托管在Github上,所以任何昂贵的解决方案都不能(只是说)。
答案 0 :(得分:1)
这是little project,它使用google speech api执行第1步和第2步。
它是用clojure编写的,这是一个在jvm上托管的类似lisp的语言。 整个项目只是one short file,请查看。