机器学习单词结构

时间:2011-07-21 13:36:52

标签: language-agnostic machine-learning linguistics

我正在开发一个系统,可以根据各种用户输入创建组成的狂热词,例如音节模板或修改后的Backus Naur Form。不过,一种新模式计划是机器学习。在这里,用户没有明确定义任何规则,但粘贴一些文本,系统学习给定单词的结构并创建相似的单词。

我目前的天真方法是创建一个字母邻居概率表(包括一个特殊的词尾“字母”)并通过字母对扫描输入来填充它(使用空格和标点符号作为单词边界)。创建一个单词意味着查找每个字母跟随当前字母的概率,并根据概率随机选择一个字母,追加并重复,直到遇到结束字

但我正在寻找更复杂的方法(可能?)提供更好的结果。我对机器学习知之甚少,所以对主题,技术或算法的指示表示赞赏。

1 个答案:

答案 0 :(得分:2)

我认为对于独立词(特别是名字),一个简单的马尔可夫链系统(你在谈论使用字母对时似乎描述)可以表现得非常好。给它一个词典并给它种一个种子,根据它学到的东西生成一个新的名字。您可能需要调整马尔可夫链的前缀长度以获得良好的声音结果(正如您的问题的评论中指出的,2个字母比一个字母要好得多)。

我曾经用精灵和兽人的名字词典尝试过它,并得到了非常令人满意的结果。