我是NLP主题的新手。 我正在研究土耳其语,因此很难找到合适的语料库。我经常阅读并发现这个async.times它告诉我使用维基百科数据,但即使我使用它也不会因为语言的结构(凝聚性语言)而给我词干。
我的目标是将我的文本分为几类。
结果必须如此 text1与subject1相关20%,subject2 50%且subject3 30%
我想如果我在没有语料库的情况下尝试这样做,但首先想在这里询问我的想法是否可行或是否是乌托邦。
另外,我需要与他们相关的类别和单词。 如果有人能告诉我一条可以继续前进的道路,那将是我在这个话题中的漂移。
感谢。