找出10个最常出现的形态词

时间:2013-04-12 12:35:34

标签: python text-mining text-analysis

请告诉我如何更好地解决这个问题。

我有俄语的文本,我想找到10个最常见的单词 with morphology 。 也许在 python

中有任何开源库可以解决这个问题

2 个答案:

答案 0 :(得分:4)

您可以使用Python中的一个Python形态分析器来标准化单词:

https://github.com/nltk/nltk中还有俄语的波特语词干。此外,您可以从命令行使用http://company.yandex.ru/technologies/mystem/

我建议使用pymorphy2来完成你的任务,但我有点偏颇:)

答案 1 :(得分:2)

PyStemmerNLTK是这里的两个明显的库。