实现TF * IDF和余弦相似度

时间:2019-11-22 14:39:39

标签: php codeigniter codeigniter-3 tf-idf cosine-similarity

任何人都知道,如何实现 TF * IDF和余弦相似度算法来搜索文档? 爆炸功能和字符串替换后,我陷入了困境。我不知道如何计算术语频率?

这是我的脚本,爆炸并替换符号:

$kata1 = explode(" ", $query);
echo "<b>Hasil Tokenizing:</b><br>";
$simbol = array(",", ".", '"', "?");
for($i=0; $i<count($kata1); $i++){
  for($j=0; $j<count($simbol); $j++){
    $kata1[$i] = str_replace($simbol, "", $kata1[$i]);
  }
  echo $kata1[$i];
  echo "<br>";
}
echo "<br>"."Jumlah kata: ".count($kata1)."<br><br>";

在那之后,我不知道如何实现该算法。 拜托,任何人都可以帮助我。

0 个答案:

没有答案