应用错误收集

时间：2013-04-09 16:46:00

标签： nlp stemming morphological-analysis lemmatization

我需要实现某种词干/ lemmatizer。我有一些不同形式的词（几千）。它不是形态词典，只是其中的一小部分。从文件中自动学习词干分析器是一个好主意吗？是否有可以使用的开源实现？

答案 0 :(得分：2)

阿塞拜疆语是一种凝聚性语言，类似于土耳其语，这意味着词语经常有一系列后缀（例如一个后缀为复数，一个为后果）。它还有元音和声，这意味着每个后缀有几个变体，你可以根据根中的元音选择正确的。

我会做什么：

识别后缀列表。我会尝试两种无监督的方法（？也许尝试Linguistica？），然后用谷歌搜索一个后缀列表（这些后缀通常只包含一个根据元音和声而变化的基本后缀）。迭代地，你应该到达一个合理的列表。如果有疑问是否是后缀，我会把它扔进去。
使用列表从单词中删除后缀。

由此产生的干扰器会产生噪音，但根据您的需要，可能无关紧要。

答案 1 :(得分：2)

Nuve是突厥语言的NLP库。一旦准备好语言规则和数据，它就可以分析并生成任何突厥语的单词，如果不是任何凝集性语言。您可以将它分叉并为阿塞拜疆语准备新的拼写和形态文件。

由于我是作者，我很乐意帮助您完成此过程。

答案 2 :(得分：1)

你应该看看John Goldsmith及其团队（@UChicago）为此目的开发的Linguistica。

答案 3 :(得分：0)

你在谈论英语吗？然后请看 English lemmatizer databases?。考虑到大量的例外情况，没有大型字典的机器学习方法似乎并不乐观。