我需要实现某种词干/ lemmatizer。我有一些不同形式的词(几千)。它不是形态词典,只是其中的一小部分。从文件中自动学习词干分析器是一个好主意吗?是否有可以使用的开源实现?
答案 0 :(得分:2)
阿塞拜疆语是一种凝聚性语言,类似于土耳其语,这意味着词语经常有一系列后缀(例如一个后缀为复数,一个为后果)。它还有元音和声,这意味着每个后缀有几个变体,你可以根据根中的元音选择正确的。
我会做什么:
由此产生的干扰器会产生噪音,但根据您的需要,可能无关紧要。
答案 1 :(得分:2)
Nuve是突厥语言的NLP库。一旦准备好语言规则和数据,它就可以分析并生成任何突厥语的单词,如果不是任何凝集性语言。您可以将它分叉并为阿塞拜疆语准备新的拼写和形态文件。
https://github.com/hrzafer/nuve
由于我是作者,我很乐意帮助您完成此过程。
答案 2 :(得分:1)
你应该看看John Goldsmith及其团队(@UChicago)为此目的开发的Linguistica。
答案 3 :(得分:0)