如何使用没有明确标记的语言,例如土耳其?

时间:2017-11-06 09:54:21

标签: python nlp

我是NLP主题的新手。 我正在研究土耳其语,因此很难找到合适的语料库。我经常阅读并发现这个async.times它告诉我使用维基百科数据,但即使我使用它也不会因为语言的结构(凝聚性语言)而给我词干。

我的目标是将我的文本分为几类。

结果必须如此 text1与subject1相关20%,subject2 50%且subject3 30%

我想如果我在没有语料库的情况下尝试这样做,但首先想在这里询问我的想法是否可行或是否是乌托邦。

另外,我需要与他们相关的类别和单词。 如果有人能告诉我一条可以继续前进的道路,那将是我在这个话题中的漂移。

感谢。

0 个答案:

没有答案