应用错误收集

Gensim和Scikit-learn都包含一个从Unicode文本“去除重音符号”的功能。但是，实现方式略有不同。实际上，它们之间有什么区别（如果有）？

norm = unicodedata.normalize("NFD", text)
result = ''.join(ch for ch in norm if unicodedata.category(ch) != 'Mn')
return unicodedata.normalize("NFC", result)

还有Scikit-learn version：

normalized = unicodedata.normalize('NFKD', s)
if normalized == s:
    return s
else:
    return ''.join([c for c in normalized if not unicodedata.combining(c)])

Gensim deaccent（）与sklearn strip_accents_unicode（）

0 个答案: