应用错误收集

我是NLP主题的新手。我正在研究土耳其语，因此很难找到合适的语料库。我经常阅读并发现这个async.times它告诉我使用维基百科数据，但即使我使用它也不会因为语言的结构（凝聚性语言）而给我词干。

我的目标是将我的文本分为几类。

结果必须如此 text1与subject1相关20％，subject2 50％且subject3 30％

我想如果我在没有语料库的情况下尝试这样做，但首先想在这里询问我的想法是否可行或是否是乌托邦。

另外，我需要与他们相关的类别和单词。如果有人能告诉我一条可以继续前进的道路，那将是我在这个话题中的漂移。

感谢。