我正在对方言文本进行分类。在下图中,如果对埃及列的tfidf求和,则在Hijazi列中的tfidf较小。但是尽管如此,它仍然将文本分类为埃及和希贾兹。这是tfidf的工作方式吗?您只要将值相加即可,如果更大,则将是正确的分类?
由于这是阿拉伯文本,因此可以假定我们拥有以下英语文本:
split names, generate(a)
generate tag = 1
forvalues i = 1 / 2 {
egen b`i' = group(a`i')
bysort b`i': replace tag = sum(tag)
bysort b`i': generate c`i' = a`i' if _n == _N & tag > 1
bysort b`i': generate d`i' = tag if _n == _N & tag > 1
list c`i' d`i' if !missing(d`i'), noobs
replace tag = 1
}
+------------+
| c1 d1 |
|------------|
| Harry 5 |
| Wyatt 2 |
+------------+
+--------------+
| c2 d2 |
|--------------|
| Delgado 3 |
| Jarvis 2 |
+--------------+
,然后在标记列中替换该英文文本中的每个单词
"You can do your best"