Question

我正在开发一个系统，我需要从单词或句子中的每个音素中获取起始帧，结束帧和分段分数。我一直在使用Sphinx-3命令：sphinx3_align，得到以下结果（例子）：

     SFrm  EFrm   SegAScr Phone
        0    21    -67327 SIL
       22    37   -236740 AH SIL K b
       38    41    -61028 K AH S i
       42    56    -82368 S K EH i
       57    67   -106366 EH S P i
       68    86   -101908 P EH T i
       87   106    -89226 T P SIL e
      107   113    -82281 SIL
 Total score:     -827244

问题是，我必须多次运行此命令，这会占用我服务器中的大量内存。我尝试在控制文件中传递许多输入，但这需要花费大量时间来处理，而我的应用程序不能有很长的响应时间。

因此，为了减少内存维持响应时间，我试图在Sphinx-4中实现相同的系统。这样我就可以在对齐后立即返回结果，而不必在每次运行时卸载应用程序。

我怀疑是否可以在Sphinx-4中输出上述输出（类似于sphinx3_align）？

Answer 1

在目前的状态下，这是不可能的。此功能未实现。

Sphinx4音素分段

1 个答案: