如何从给定的hunspell字典中获取所有可能的单词?

时间:2017-03-02 22:05:04

标签: c# spell-checking hunspell nhunspell

我想解析支持hunspell格式化affdic文件的开放式办公室。

可以从此处下载英语affdic文件,例如:http://extensions.openoffice.org/en/project/english-dictionaries-apache-openoffice

我想扫描给定.dic文件的每一行,并使用提供的.aff文件生成每行的每个可能的单词

我该怎么做?

我已经安装了NHunspell框架,但它没有该功能:https://www.nuget.org/packages/NHunspell/

例如,对于英语,我们可以考虑

make/UAGS

make可以是make, made, makes, making

现在我需要解析器给我所有这些组合。我怎样才能获得它们? Ty非常

所以基本上我想扫描字典的每一行并从该行的单词生成所有可能的单词,我不知道我该怎么做

我也可以编写自己的解析器,但在我看来,规则相当复杂,没有详细而简单的文档。

这里我基本上想要的。图像解释清楚

发送analyze/ADSGen.dicen.aff文件并获取以下所有字词

analyze, analyzes, analyzing, analyzed, reanalyze, reanalyzes, reanalyzing, reanalyzed

enter image description here

1 个答案:

答案 0 :(得分:1)

如果需要整个数据库,可以执行unmunch

unmunch dictionary.dic dictionary.aff

请注意,当前在hunspell中实施unmunch的操作限制为最大单词数,affs和所生成单词的长度。因此,如果目标语言超出了取消限制的范围,则取消锁定可能会失败。

如果只想从条目中生成可能单词的列表,则可以使用wordforms

wordforms dictionary.aff dictionary.dic word