应用错误收集

我正在尝试在python中创建类似Apple Siri的应用程序，通过麦克风为其提供声音命令或问题，它确定输入音频的文本版本，然后根据命令/问题的含义。我将使用语音识别库接受麦克风输入并从语音转换为文本（通过IBM Watson Speech to Text API）。

我现在遇到的主要问题是，当我在给出适当的命令/问题时定义应用程序执行的操作时，我不知道如何确定是否所述命令/问题是表示该行动。让我用一个例子澄清我的意思：

假设我们有一个名为hello的动作。有人可以通过多种方式说出＃34;你好＆＃34;给另一个人（或者在这种情况下，我的申请），例如：

＆＃34;你好＆＃34;
＆＃34;您好＆＃34;
＆＃34;你好＆＃34;
...诸如此类...

当然，我想要所有这些方式来说＆＃34;你好＆＃34;在hello的行动下进行分类。也就是说，当有人说＆＃34;你好＆＃34;，＆＃34; hi＆＃34;或＆＃34;你好＆＃34;时，应该执行动作hello的响应（最有可能）只是应用程序说＆＃34;你好＆＃34;在这种情况下回来。）

我对如何解决这个问题的第一个想法是为应用程序提供所有或最常见的方式来表达某个命令/问题。所以，如果我按照前面的例子，我会告诉计算机＆＃34;你好＆＃34;，＆＃34; hi＆＃34;，＆＃34;你好＆＃34;所有意味着同样的事情：hello行动。但是，这种方法有一些缺陷。首先，它根本不会理解说＆＃34;你好＆＃34;那些没有硬编码的，例如＆＃34;嘿＆＃34;。第二，一旦对新命令/问题的回答开始编码，进入所有说出某个短语的方式就变得非常繁琐。

那么，由于上述问题，我开始研究计算一组句子和单个查询之间相似性的方法。我最终遇到了用于python的Gensim库。我调查了一下，发现了一些关于复杂过程的非常有前途的信息，例如潜在语义索引/分析（LSI / LSA）和Tf-idf。然而，在我看来，这些东西主要用于比较具有大字数的文档，因为它们依赖于某些术语的频率。假设这是真的，这些过程并不能真正为我提供准确的结果，因为给我的应用程序的命令/问题平均可能大约是8个单词。我可能完全错了，毕竟我对这些过程知之甚少。

我还发现了WordNet，以及如何使用Natural Language Toolkit（NLTK）在python中使用它。看起来它可能有用，但我不确定如何。

所以，最后，我想我真正的问题是什么是我提到的问题的最佳解决方案？我应该使用我提到的其中一种方法吗？或者有更好的方法来做我想做的事情，我不知道吗？

任何帮助都将非常感谢。提前谢谢。

P.S。对于罗嗦的解释感到抱歉;我想确定我很清楚：P

类似Siri的app：计算查询与预定义的一组控制短语之间的相似性

1 个答案: