在语音语料库工具中,documentation says
运行命令行分析脚本的过程基本上是 对于任何分析都是一样的。首先,打开终端窗口(在Mac OS X上 或Linux)或CygWin窗口(在Windows上,可以从。下载 https://www.cygwin.com/)。使用“cd”命令,导航到 包含您的语料库文件的目录。如果你想分析 perform需要任何其他输入文件,然后它们也必须在 这个目录。 (而不是从相关文件中运行脚本 目录,您也可以从任何工作目录运行脚本 当您指定任何文件的完整路径时。)然后键入分析 命令进入终端并按回车/返回运行分析。 分析脚本名称后的第一个(位置)参数 始终是语料库文件的名称。
我需要的command是
corpustools.symbolsim.edit_distance.edit_distance(word1, word2, sequence_type, max_distance=None)
该文件应在列中设置(例如,从a导入 电子表格)并用一些统一的字符分隔(制表符,逗号, 反斜杠等)。大多数信息列的名称都可以 你喜欢什么,但代表共同拼写的专栏 这个词应该叫做“拼写”;转录应该是 称为“转录”;并且应该调用令牌频率 “频率”。
我想要返回"转录" series_type。所以,从上面看,我认为这意味着我的.txt将如下:
spelling . transcription . frequency
PLEASE . P L IY Z . 1
HELP . HH EH L P . 1
ME . M IY . 1
虽然将所有数据转换为此类.txt文件,但take为while。
是否有可能在cygwin中运行上述命令,但要告诉cygwin计算每个可能单词的值(我认为这意味着我必须使用&#34的转录值) ;单词",例如," PL IY Z")在列表中配对,因为它出现在.txt文件中P L IY Z, HH EH L P
... P L IY Z, M IY
... {{ 1}}),然后返回这些值的平均值?
我没有cygwin或编码的经验。