使用统计机器学习或NLP的拼写校正器

时间:2015-02-17 07:03:48

标签: lucene machine-learning

首先感谢大家的回答。这是我的问题:

考虑两个互相发短信的用户:

首先: Thr 绝对不是!!

第二:是的!!我知道 der 不是问题。 (问题 问题

两个用户都不同,一个使用 thr 用于那里,另一个用 der 。许多其他用户也可能使用其他东西。我一直在寻找并经历过:

1)Apache Lucene

2)Jazzy

3)隐马尔可夫模型

4)N-gram等......

5)语音

6)Python ntlk

还有一个问题:

句子可能不是正确的句子。考虑这些:

1)gimme hi 5 !!!为给我高五

2)ssly? 认真?

3)Wat r u doin?新闻见到明天2点你在做什么?无论如何明天见。

同样,不同的用户可能对上述单词使用不同的内容,句子也可能在语法上不正确。有时候很难想到一个背景。关键是用户可能使用的内容非常特定于用户。

所以我的问题是如何训练我的软件/应用程序,以便每个用户以不同的方式学习(考虑 thr der 的情况),具体取决于用户正在使用并建议更正(例如那里用于 thr 用于一个用户而那里用于 der 用于另一个用户) 。有很多可能性,我无法将其融入单一方法中。请建议。

0 个答案:

没有答案