我是Java的新手。我的问题是如何解析这样的数据: Image
我需要解析以“ALIGN_REF:”和“ALIGN_HYP:”开头的行
它基本上是一个发音,那些字母是拼音字母(U:?RR ......等)
ALIGN_REF行是引用,ALIGN_HYP是估计的。我只需要这两行。
我基本上需要的是保存线上的每个音素(ALIGN_REF)和下面的(ALIGN_HYP)。并根据这些创建一个混乱矩阵。
我应该使用什么函数来解析这两行中的每一个音素(可能是不同的数组)?
答案 0 :(得分:0)
我会解析每一行并检查它是以ALIGN_REF
还是ALIGN_HYP
开头。如果那是匹配,则可以将整行读入2个String对象。您可以使用Scanner
从文件或命令行读取。
从这里,Java for String中的split
函数将拆分该行,您可以将该空间用作分隔符。下面的变量alignHyp
将包含源数据中的相应行。
String[] alignHypArr = alignHyp.split(" ");
上面的数组现在具有ALIGN_HYP
行所需的不同字符。