应用错误收集

我正在对方言文本进行分类。在下图中，如果对埃及列的tfidf求和，则在Hijazi列中的tfidf较小。但是尽管如此，它仍然将文本分类为埃及和希贾兹。这是tfidf的工作方式吗？您只要将值相加即可，如果更大，则将是正确的分类？

由于这是阿拉伯文本，因此可以假定我们拥有以下英语文本： split names, generate(a) generate tag = 1 forvalues i = 1 / 2 { egen b`i' = group(a`i') bysort b`i': replace tag = sum(tag) bysort b`i': generate c`i' = a`i' if _n == _N & tag > 1 bysort b`i': generate d`i' = tag if _n == _N & tag > 1 list c`i' d`i' if !missing(d`i'), noobs replace tag = 1 } +------------+ | c1 d1 | |------------| | Harry 5 | | Wyatt 2 | +------------+ +--------------+ | c2 d2 | |--------------| | Delgado 3 | | Jarvis 2 | +--------------+，然后在标记列中替换该英文文本中的每个单词

"You can do your best"

为什么Tfidf无法正确计算？

0 个答案: