我有一些代码,它从SQL数据库中获取一个大量的字符串并将其解析为单个单词并将它们放入一个数组中进行计数,目的是制作必须使用的单词的图形,但我需要找到一个删除常用单词的方法。我做了一个非常基本的单词比较,但它不是很有效。他们的字典文件的一些手段我可以比较吗?任何想法都会很棒。
我目前正在实习中编辑现有的“数据表示算法”,我真的不知道从哪里开始。有人建议我使用字典文件但不仅没有字典文件,我不知道如何比较它。
答案 0 :(得分:0)
您可以使用in_array函数执行此操作:
<?php
$whitelist = array('a', 'the');
function whitelisted($var)
{
global $whitelist;
return (!in_array($var, $whitelist));
}
$str = "a lazy fox jumped over the lazy farmer";
print_r(array_count_values(array_filter(explode(" ", $str), "whitelisted")));
?>
//produces:
Array
(
[lazy] => 2
[fox] => 1
[jumped] => 1
[over] => 1
[farmer] => 1
)
当然,你可以而且应该重新安排这个以适应你自己的范围(全局可能并不理想),但它应该让你开始修剪你不需要考虑的常用词。