任何人都知道,如何实现 TF * IDF和余弦相似度算法来搜索文档? 爆炸功能和字符串替换后,我陷入了困境。我不知道如何计算术语频率?
这是我的脚本,爆炸并替换符号:
$kata1 = explode(" ", $query);
echo "<b>Hasil Tokenizing:</b><br>";
$simbol = array(",", ".", '"', "?");
for($i=0; $i<count($kata1); $i++){
for($j=0; $j<count($simbol); $j++){
$kata1[$i] = str_replace($simbol, "", $kata1[$i]);
}
echo $kata1[$i];
echo "<br>";
}
echo "<br>"."Jumlah kata: ".count($kata1)."<br><br>";
在那之后,我不知道如何实现该算法。 拜托,任何人都可以帮助我。