我目前正在研究在我正在构建的应用程序中使用的最合适的字典。
检查与Sublime Text 2捆绑在一起的词典,文件格式与您期望的一样 - 按字母顺序排列的单词列表。但是,很多这些词都附加了额外的信息。以此片段为例:
abaft
abbreviation/M
abdicate/DNGSn
Abelard/M
abider/M
Abidjan
ablaze
abloom
aboveground
abrader/M
Abram/M
abreaction/MS
abrogator/MS
abscond/DRSG
absinthe/MS
absoluteness/S
absorbency/SM
abstract/ShTVDPiGY
absurdness/S
毫无结果的谷歌搜索没有说明斜线(/)之后的字母是什么意思。
也许他们暗示了这个词的性别,但这只是一个猜测,我更愿意阅读他们意义的正式解释。
有人遇到过这些吗?
答案 0 :(得分:5)
斜杠后面的字母称为词缀。这些编码可以是可以应用于根词的前缀或后缀。
请参阅this blog post以获得一个很好的解释以及可以使用这些词缀的示例。
Another place to look是aspell
手册。
答案 1 :(得分:2)
TLDR :斜杠后面的.dic
文件中的每个字母都是.aff
文件中规则的名称。
https://superuser.com/a/633869/367530
每个规则都在该语言的.aff文件中。规则分为两部分 flavor:后缀为SFX,前缀为PFX。每一行都以 PFX / SFX然后是规则字母标识符(后面跟随的那个) 字典文件中的单词:
PFX [rule_letter_identifier] [combineable_flag] [number_of_rule_lines_that_follow]
您通常可以忽略可组合标志,它取决于Y或N. 是否可以与其他规则结合使用。然后有一些 列出不同可能性的行数(由...表示) 该规则在不同情况下的适用方式。它看起来像这样:
PFX [rule_letter_identifier] [number_of_letters_to_delete] [what_to_add] [when_to_add_it]
例如:
SFX B Y 3
SFX B 0 able [^aeiou]
SFX B 0 able ee
SFX B e able [^aeiou]e
如果
当单词的结尾不时,B
是单词后面的字母之一,即someword/B
,那么这是其中之一 可以适用的规则。有三种可能性发生 (因为有三行)。只有一个适用:
able
会添加到结尾处 由^
)字母中的一个字母(由[ ]
表示)a
,e
,i
,o
和u
。例如,添加问题→可疑的能力 到最后这个词的结尾是ee
。例如,同意→ 合适的。当单词的结尾不是a时,才能添加到最后 元音([^aeiou]
)后跟e
。字母e
被删除( 专栏之前)。例如,兴奋→兴奋。PFX规则是相同的,但在单词的开头应用 对于前缀。