语音.txt文件解析

时间:2015-01-28 14:47:28

标签: java parsing text

我是Java的新手。我的问题是如何解析这样的数据:  Image

我需要解析以“ALIGN_REF:”和“ALIGN_HYP:”开头的行

它基本上是一个发音,那些字母是拼音字母(U:?RR ......等)

ALIGN_REF行是引用,ALIGN_HYP是估计的。我只需要这两行。

我基本上需要的是保存线上的每个音素(ALIGN_REF)和下面的(ALIGN_HYP)。并根据这些创建一个混乱矩阵。

我应该使用什么函数来解析这两行中的每一个音素(可能是不同的数组)?

1 个答案:

答案 0 :(得分:0)

我会解析每一行并检查它是以ALIGN_REF还是ALIGN_HYP开头。如果那是匹配,则可以将整行读入2个String对象。您可以使用Scanner从文件或命令行读取。

从这里,Java for String中的split函数将拆分该行,您可以将该空间用作分隔符。下面的变量alignHyp将包含源数据中的相应行。

String[] alignHypArr = alignHyp.split(" ");

上面的数组现在具有ALIGN_HYP行所需的不同字符。