我想解析支持hunspell格式化aff
和dic
文件的开放式办公室。
可以从此处下载英语aff
和dic
文件,例如:http://extensions.openoffice.org/en/project/english-dictionaries-apache-openoffice
我想扫描给定.dic
文件的每一行,并使用提供的.aff
文件生成每行的每个可能的单词
我该怎么做?
我已经安装了NHunspell框架,但它没有该功能:https://www.nuget.org/packages/NHunspell/
例如,对于英语,我们可以考虑
make/UAGS
make可以是make, made, makes, making
等
现在我需要解析器给我所有这些组合。我怎样才能获得它们? Ty非常
所以基本上我想扫描字典的每一行并从该行的单词生成所有可能的单词,我不知道我该怎么做
我也可以编写自己的解析器,但在我看来,规则相当复杂,没有详细而简单的文档。
这里我基本上想要的。图像解释清楚
发送analyze/ADSG
,en.dic
和en.aff
文件并获取以下所有字词
analyze, analyzes, analyzing, analyzed, reanalyze, reanalyzes, reanalyzing, reanalyzed
答案 0 :(得分:1)
如果需要整个数据库,可以执行unmunch
:
unmunch dictionary.dic dictionary.aff
请注意,当前在hunspell中实施unmunch的操作限制为最大单词数,affs和所生成单词的长度。因此,如果目标语言超出了取消限制的范围,则取消锁定可能会失败。
如果只想从条目中生成可能单词的列表,则可以使用wordforms
:
wordforms dictionary.aff dictionary.dic word