为什么Tfidf无法正确计算?

时间:2019-05-24 21:24:06

标签: python scikit-learn text-classification tf-idf tfidfvectorizer

我正在对方言文本进行分类。在下图中,如果对埃及列的tfidf求和,则在Hijazi列中的tfidf较小。但是尽管如此,它仍然将文本分类为埃及和希贾兹。这是tfidf的工作方式吗?您只要将值相加即可,如果更大,则将是正确的分类?

由于这是阿拉伯文本,因此可以假定我们拥有以下英语文本: split names, generate(a) generate tag = 1 forvalues i = 1 / 2 { egen b`i' = group(a`i') bysort b`i': replace tag = sum(tag) bysort b`i': generate c`i' = a`i' if _n == _N & tag > 1 bysort b`i': generate d`i' = tag if _n == _N & tag > 1 list c`i' d`i' if !missing(d`i'), noobs replace tag = 1 } +------------+ | c1 d1 | |------------| | Harry 5 | | Wyatt 2 | +------------+ +--------------+ | c2 d2 | |--------------| | Delgado 3 | | Jarvis 2 | +--------------+ ,然后在标记列中替换该英文文本中的每个单词  enter image description here

"You can do your best"

0 个答案:

没有答案