Pocketsphinx - 完善热词检测

时间:2016-09-03 18:34:09

标签: android voice-recognition cmusphinx pocketsphinx pocketsphinx-android

我最近重新访问了CMU Sphinx,并试图为Android设置一个基本的热词检测器,从tutorial开始并调整sample application

我有各种各样的问题,尽管我已经深入研究他们的文档,但我已经无法解决这些问题,直到我不能再阅读......

为了复制它们,我做了一个基本项目,旨在检测关键字 唤醒你 唤醒我

我的字典:

me M IY
wakeup W EY K AH P
you Y UW

我的语言模型:

\data\
ngram 1=5
ngram 2=5
ngram 3=4

\1-grams:
-0.9031 </s> -0.3010
-0.9031 <s> -0.2430
-1.2041 me -0.2430
-0.9031 wakeup -0.2430
-1.2041 you -0.2430

\2-grams:
-0.3010 <s> wakeup 0.0000
-0.3010 me </s> -0.3010
-0.6021 wakeup me 0.0000
-0.6021 wakeup you 0.0000
-0.3010 you </s> -0.3010

\3-grams:
-0.6021 <s> wakeup me
-0.6021 <s> wakeup you
-0.3010 wakeup me </s>
-0.3010 wakeup you </s>

\end\

以上两个都是使用suggested tool创建的。

我的关键短语文件:

wakeup you /1e-20/
wakeup me /1e-20/

调整上面链接的示例应用程序,这是我的代码:

public class PocketSphinxActivity extends Activity implements RecognitionListener {

    private static final String CLS_NAME = PocketSphinxActivity.class.getSimpleName();

    private static final String HOTWORD_SEARCH = "hot_words";

    private volatile SpeechRecognizer recognizer;

    @Override
    public void onCreate(Bundle state) {
        super.onCreate(state);
        setContentView(R.layout.main);

        new AsyncTask<Void, Void, Exception>() {
            @Override
            protected Exception doInBackground(Void... params) {
                Log.i(CLS_NAME, "doInBackground");

                try {

                    final File assetsDir = new Assets(PocketSphinxActivity.this).syncAssets();

                    recognizer = defaultSetup()
                            .setAcousticModel(new File(assetsDir, "en-us-ptm"))
                            .setDictionary(new File(assetsDir, "basic.dic"))
                            .setKeywordThreshold(1e-20f)
                            .setBoolean("-allphone_ci", true)
                            .setFloat("-vad_threshold", 3.0)
                            .getRecognizer();

                    recognizer.addNgramSearch(HOTWORD_SEARCH, new File(assetsDir, "basic.lm"));
                    recognizer.addKeywordSearch(HOTWORD_SEARCH, new File(assetsDir, "hotwords.txt"));
                    recognizer.addListener(PocketSphinxActivity.this);

                } catch (final IOException e) {
                    Log.e(CLS_NAME, "doInBackground IOException");
                    return e;
                }

                return null;
            }

            @Override
            protected void onPostExecute(final Exception e) {
                Log.i(CLS_NAME, "onPostExecute");

                if (e != null) {
                    e.printStackTrace();
                } else {
                    recognizer.startListening(HOTWORD_SEARCH);
                }
            }
        }.execute();
    }

    @Override
    public void onBeginningOfSpeech() {
        Log.i(CLS_NAME, "onBeginningOfSpeech");
    }

    @Override
    public void onPartialResult(final Hypothesis hypothesis) {
        Log.i(CLS_NAME, "onPartialResult");

        if (hypothesis == null)
            return;

        final String text = hypothesis.getHypstr();
        Log.i(CLS_NAME, "onPartialResult: text: " + text);

    }

    @Override
    public void onResult(final Hypothesis hypothesis) {
        // unused
        Log.i(CLS_NAME, "onResult");
    }

    @Override
    public void onEndOfSpeech() {
        // unused
        Log.i(CLS_NAME, "onEndOfSpeech");
    }


    @Override
    public void onError(final Exception e) {
        Log.e(CLS_NAME, "onError");
        e.printStackTrace();
    }

    @Override
    public void onTimeout() {
        Log.i(CLS_NAME, "onTimeout");
    }

    @Override
    public void onDestroy() {
        super.onDestroy();
        Log.i(CLS_NAME, "onDestroy");

        recognizer.cancel();
        recognizer.shutdown();
    }
}

注意: - 我是否应该更改我选择的关键短语(和其他相关文件)更加不同,并且我在安静的环境中测试实现,应用的设置和阈值非常成功。

问题

  1. 当我说唤醒你叫醒我时,两者都会被检测到。
  2. 我无法确定如何对最终音节应用增加的权重。

    1. 当我说 wakeup 时,经常(但并非总是)都会检测到它们。
    2. 我无法确定如何避免这种情况发生。

      1. 在测试背景噪音时,误报太频繁了。
      2. 我无法降低我使用的基准阈值,否则在正常情况下不会检测到关键短语。

        1. 长时间测试背景噪音(5分钟应足以复制),立即返回安静的环境并说出关键短语,导致无法检测。
        2. 在成功且反复检测关键短语之前需要一段不确定的时间 - 好像测试是在安静的环境中开始的。

          我找到了potentially related question,但链接不再有效。我想知道我是否应该更频繁地重置识别器,以便以某种方式将背景噪声重置为平均值到检测阈值?

          1. 最后,我想知道我对有限关键短语的要求是否会让我减小声学模型的大小?
          2. 在我的应用程序中打包时的任何开销当然都是有益的。

            非常终于(诚实!),并且特别希望@NikolayShmyrev能够发现这个问题,是否有任何计划完全通过gradle包装基本的Android实现/ sdk?

            我感谢那些做到这一点的人......

1 个答案:

答案 0 :(得分:2)

  

我的语言模型:

您不需要语言模型,因为您不使用它。

  

我无法降低我使用的基准阈值,否则在正常情况下不会检测到关键短语。

1e-20是一个合理的阈值,您可以提供错误检测的样本记录,以便让我更好地了解正在发生的事情。

  

长时间测试背景噪音(5分钟应足以复制),立即返回安静的环境并说出关键词,导致无法检测。

这是预期的行为。总体而言,长背景噪声使识别器难以快速适应音频参数。如果您的任务是在嘈杂的地方发现单词,最好使用某种硬件噪声消除,例如,具有噪声消除功能的蓝牙耳机。

  

最后,我想知道我对有限关键短语的要求是否会让我减小声学模型的大小?

现在不可能。如果您只是想要发现,可以试试https://snowboy.kitt.ai