Gensim deaccent()与sklearn strip_accents_unicode()

时间:2018-11-19 16:19:51

标签: python text unicode scikit-learn gensim

Gensim和Scikit-learn都包含一个从Unicode文本“去除重音符号”的功能。但是,实现方式略有不同。实际上,它们之间有什么区别(如果有)?

这里是Gensim version

norm = unicodedata.normalize("NFD", text)
result = ''.join(ch for ch in norm if unicodedata.category(ch) != 'Mn')
return unicodedata.normalize("NFC", result)

还有Scikit-learn version

normalized = unicodedata.normalize('NFKD', s)
if normalized == s:
    return s
else:
    return ''.join([c for c in normalized if not unicodedata.combining(c)])

0 个答案:

没有答案