我是文本分析和scikit-learn的新手。我正在尝试使用sklearn' TfidfVectorizer 类来推文。当我使用' get_feature_names()'列出条款时在对推文进行制作后,我会看到类似的字词,例如' 目标',' gooooal '或' goaaaaaal '作为不同的术语。
问题是,如何制定单一术语'目标'使用sklearn特征提取技术(或任何其他技术)来获得更好的结果?
答案 0 :(得分:2)
简而言之 - 你做不到。这是一个非常复杂的问题,需要全面的语言理解。想一想 - 你能准确定义“相似但不同”的意思吗?如果你不能,计算机也将无法做到。你能做什么?