我使用java中的包pinyin4j将单个汉字转换为罗马字母(拼音)。但是,这通常会为一个字符产生多个拼音(相同的字符具有不同的发音)。比如说,字符C1转换为2个拼音形式p1和p2,字符C2转换为3个拼音形式,q1,q2,q3。
当我将C1C2组合成一个单词时,它产生2 * 3 = 6个组合。通常只有其中一个是真正的单词。我想根据我构建的词典文本文件检查这些组合,许多行以\ w开头,这是一个词条(例如,在词典中只找到6个组合中的p1q2)。我正在考虑将词典文件读入一个哈希集。但是我不确定如何最好地实现整个过程。有什么建议吗?