有没有一个开源的自学词干?

时间:2013-04-09 16:46:00

标签: nlp stemming morphological-analysis lemmatization

我需要实现某种词干/ lemmatizer。我有一些不同形式的词(几千)。它不是形态词典,只是其中的一小部分。从文件中自动学习词干分析器是一个好主意吗?是否有可以使用的开源实现?

4 个答案:

答案 0 :(得分:2)

阿塞拜疆语是一种凝聚性语言,类似于土耳其语,这意味着词语经常有一系列后缀(例如一个后缀为复数,一个为后果)。它还有元音和声,这意味着每个后缀有几个变体,你可以根据根中的元音选择正确的。

我会做什么:

  • 识别后缀列表。我会尝试两种无监督的方法(?也许尝试Linguistica?),然后用谷歌搜索一个后缀列表(这些后缀通常只包含一个根据元音和声而变化的基本后缀)。迭代地,你应该到达一个合理的列表。如果有疑问是否是后缀,我会把它扔进去。
  • 使用列表从单词中删除后缀。

由此产生的干扰器会产生噪音,但根据您的需要,可能无关紧要。

答案 1 :(得分:2)

Nuve是突厥语言的NLP库。一旦准备好语言规则和数据,它就可以分析并生成任何突厥语的单词,如果不是任何凝集性语言。您可以将它分叉并为阿塞拜疆语准备新的拼写和形态文件。

https://github.com/hrzafer/nuve

由于我是作者,我很乐意帮助您完成此过程。

答案 2 :(得分:1)

你应该看看John Goldsmith及其团队(@UChicago)为此目的开发的Linguistica

答案 3 :(得分:0)

你在谈论英语吗?然后请看 English lemmatizer databases?。考虑到大量的例外情况,没有大型字典的机器学习方法似乎并不乐观。