Question

我是Java的新手。我的问题是如何解析这样的数据： Image

我需要解析以“ALIGN_REF：”和“ALIGN_HYP：”开头的行

它基本上是一个发音，那些字母是拼音字母（U：？RR ......等）

ALIGN_REF行是引用，ALIGN_HYP是估计的。我只需要这两行。

我基本上需要的是保存线上的每个音素（ALIGN_REF）和下面的（ALIGN_HYP）。并根据这些创建一个混乱矩阵。

我应该使用什么函数来解析这两行中的每一个音素（可能是不同的数组）？

Answer 1

我会解析每一行并检查它是以ALIGN_REF还是ALIGN_HYP开头。如果那是匹配，则可以将整行读入2个String对象。您可以使用Scanner从文件或命令行读取。

从这里，Java for String中的split函数将拆分该行，您可以将该空间用作分隔符。下面的变量alignHyp将包含源数据中的相应行。

String[] alignHypArr = alignHyp.split(" ");

上面的数组现在具有ALIGN_HYP行所需的不同字符。