IBM显然开源了他们用于Unicode和全球化支持的ICU源代码,其中一部分是文本边界定位器,用于检测文本中的中断位置。
但是,中断检测内容依赖于规则,我无法在任何地方找到规则文件。
我在哪里可以获取com.ibm.icu.text.BreakIterator
和com.ibm.icu.text.RuleBasedBreakIterator
的分词规则文本文件?
答案 0 :(得分:2)
http://www.icu-project.org/包含IBM在开源许可下发布的icu4j的所有源代码。这包括边界分析,如字典和基于规则的break迭代器。
但是,似乎没有适合细读的文本文件。我不确定IBM是否会将其规则集作为开源发布(因为它对他们来说是一个非常大的技术优势)。相反,我们的想法是创建自己的规则集,其教程为here。
同一个教程声明您可以通过运行以下命令来转储默认规则:
RuleBasedBreakIterator rbbi = (RuleBasedBreakIterator)
BreakIterator.getWordInstance(Locale.getDefault());
String defaultRules = rbbi.toString();