使用语言检测进行多语言拼写检查

时间:2011-05-03 17:54:24

标签: language-agnostic nlp multilingual spell-checking

我正在进行混合语言网页的拼写检查,但未能找到有关此主题的任何现有研究。

目的是在混合语言网页中自动检测语句的语言,并自动对其语言进行拼写检查。假设我们可以忽略将多种语言混合在一起的句子(例如“他有一定的知识”),并假设网页不能包含超过2或3种语言。

琐碎的例子(威尔士语+英语):http://wales.gov.uk/

我目前正在混合使用:

  • 字符分布(例如0600-06FF =阿拉伯语等)
  • n-Grams用于识别具有相似字符的语言
  • 字典查找以识别区域设置,即en-US,en-GB

我有工作代码,但担心它可能是天真的或不必要的重新发明轮子。还有其他人以前做过这个吗?

2 个答案:

答案 0 :(得分:2)

您可以使用API​​(Google和Yandex)进行拼写检查和语言检测 - 但我认为此选项的扩展性不是很高。

其他选项是使用免费的lucene工具进行拼写检查http://wiki.apache.org/lucene-java/SpellChecker,但你必须首先索引一些语料库 - 维基百科是不错的选择。 LD可以http://textcat.sourceforge.net/

归档

答案 1 :(得分:-1)

使用Languagetool http:/www.languagetool.org库,您可以选择所需的语言,并根据您的语言检查内容。例如。对于法语/英语网站,您需要检查英语和法语的文本。当您检查错误的语言时,显然会出现更多错误。

示例:

如果你是检查来自http://fr.wikipedia.org/wiki/Charte_de_la_langue_fran%C3%A7aise的法语文本:

La Charte de la langue française (communément appelée la loi 1011) est 
une loi définissant les droits linguistiques de tous les citoyens du 
Québec et faisant du français la langue officielle du Québec.

http://www.languagetool.org上,它将显示法语没有错误,英语/ GB错误超过20个。

相应的英文文本:

The Charter of the French Language (French: La charte de la langue française), also 
known as Bill 101 (Law 101 or French: Loi 101), is a law in the province of Quebec 
in Canada defining French, the language of the majority of the population, as the 
official language of Quebec and framing fundamental language rights. It is the central
legislative piece in Quebec's language policy.

将显示英语/ GB的4个错误(由于法语引用),并且当您再次使用法语检查时会出现20多个错误。