Gensim和Scikit-learn都包含一个从Unicode文本“去除重音符号”的功能。但是,实现方式略有不同。实际上,它们之间有什么区别(如果有)?
这里是Gensim version:
norm = unicodedata.normalize("NFD", text)
result = ''.join(ch for ch in norm if unicodedata.category(ch) != 'Mn')
return unicodedata.normalize("NFC", result)
normalized = unicodedata.normalize('NFKD', s)
if normalized == s:
return s
else:
return ''.join([c for c in normalized if not unicodedata.combining(c)])