开源拼写检查

时间:2009-07-03 17:53:20

标签: nlp spell-checking languagetool

正在评估为我拥有的产品添加拼写检查。根据我的研究,需要做出的主要决定是:

  1. 要使用的库。
  2. 字典(这可以是特定地区,英国英语,美国等)。
  3. 排除列表。任何时候检测到拼写错误,可能不是拼写错误而是 特定于用户的措辞。此时,用户应该有能力 将其添加到自定义排除列表中。
  4. 除了每用户自定义列表外,还有一个基于用户空间的排除列表 该工具的客户。这是用户工作域中的术语/首字母缩略词。例如,FX不会成为货币交易商的错字。
  5. 下面列出了我所提出的未解决的问题,如果我可以获得非常有用的输入。 1,我想的是hunspell,它是在MPL下提供的开源库,由firefox和OpenOffice系列产品使用。有没有使用这个恐怖故事? 有许可证的灰色区域?拼写检查将在Windows客户端上进行。

    字典可以从各种来源获得,有些是免费的,而有些则没有。关于免费词典的良好来源的任何建议。

    多语言支持以及为支持他们而需要解决的问题?

    对于4,自定义词典如何与服务器端和客户端保持同步?拼写检查需要在客户端进行,所以它们是否每次都在初始启动时被推下,或者它们是否经常同步?

4 个答案:

答案 0 :(得分:10)

如前所述,Hunspell是最先进的拼写检查程序。它是Open Office,Thunderbird,Firefox和Google Chrome拼写检查程序。提供所有主要编程语言的端口。它适用于Open Office目录,因此支持许多语言。

答案 1 :(得分:3)

我曾使用Hunspell来做一些事情,我真的没有任何恐怖故事。我虽然只使用英语(美国语),但它声称可以使用其他语言。

在许可方面,它提供了GPL,LGPL和MPL的选择。如果你不喜欢MPL,你可以随时选择使用LGPL。

答案 2 :(得分:2)

有几种广泛使用的瞳孔选项:myspell,aspell。检查一下。

答案 3 :(得分:1)

这是Peter Norvig的一个很好的演示:我发现这个简单的解释更加直观。请按照文档中的链接进行更深入的分析。

http://norvig.com/spell-correct.html