我想为Khmer(一种在单词之间没有空格的语言)添加一个开源Java单词分割程序。很长一段时间以来开发人员都没有对它进行过工作,我也无法联系他们了解详细信息(http://sourceforge.net/projects/khmer/files/Khmer%20Word%20Breaking/Khmer%20Word%20Breaking %20program%20V1.0 /)。据说该列表是从高棉词典创建的,我想重新创建该文件以包含更多单词。
任何人都可以确定单词词典的格式(我相信它是某种类型的Trie)?以下是前几行:
0ឳមអគណជយឍឫហកដពទឱលថឦឡញឩខនឧផប។ឋវឭឈឃឥឌឰឪសងចភធឯតឆរ
1ទ
0ក
1
1ីែមគួណជយ៍ៀហកទុលេញ៉ឺនំឹៃូឈឃោាឿសងចិ្ធើតៅរ
1គនសងរ
0ទ
0ា
0យ
0ព
0ន
1
1រ
0ា
0ស
0ី
1
有没有人知道如何制作一个新的(我有一个大的单词列表,但我不知道如何将它变成这种格式)。
谢谢!
答案 0 :(得分:1)
快速查看代码后,我有了一个理论。
创建扩展SearchTree
的{{1}}。对于词典中的每个字词,请从TreeItem
拨打addWord
。迭代完成后,在TreeItem
上调用export
。使用新文件作为单词输入文件。
此外,khwrdbrk.jar,SearchTree
可能有一个未记录的参数,它将从标准输入中读取新树的单词。
再次,只是一个理论,但让我知道如果你测试它会发生什么。