我有一个简单的非关联数组,有几千个值 值为1-10个字符串。
我需要找到阵列中具有最多“命中”的3-4个连续单词串。
这是字母数字且不区分大小写。
命中可能是:
字符串的任何单个单词都出现在数组的一个项目中。 任何一组多个连续单词都出现在数组的一个项目中。
所以,一个例子:
$database = array(
0 => 'the dogs whisperer',
1 => 'I am a whisperer',
2 => 'dogs are often hairy',
3 => 'dogs',
4 => 'are you a dogs whisperer'
5 => 'dogs can be manipulated by a whisperer');
三个单词串“the dog whisperer”会得到以下点击:
“狗的低语者”中的“狗悄悄话” “狗悄悄话”中的“狗悄悄话” “狗的低声说话者”中的“狗”“the the the whisperer”中的“the”
“狗语者”中的“狗” “小狗低语中的低语者” “我是一个低语者”中的“低语者” “狗”中的“狗”通常是毛茸茸的“ “狗”中的“狗”“狗悄悄话”中的“你是狗的低语者”
“狗”中的“你是狗的低语者”
“低语者”中的“你是狗的低语者”
“狗”中的“狗”可以被低声说话者操纵“ “狗中的”低语者“可以被低声说话者操纵”为了使多字词串得到命中,这些词必须是连续的。即“狗悄悄话”不是一个打击“狗可以被低声说话者操纵。
词语也必须有序。即“狗低语”并不是“低语犬”的价值所在。
我很好地掌握了不同的数组函数,我只是无法将它们全部放在一起。我尝试通过单词爆炸和重新组合来提取所有可能的字符串集,然后使用strpos!== FALSE来查找命中。我最终得到了一个巨大的矩阵,我无法从我需要的输出中获得。
答案 0 :(得分:0)
我希望这就是你要找的东西。我相信你可以优化很多,但我认为这会指出你正确的方向。
HTH,安迪
<?php
$database = array(
0 => 'the dogs whisperer',
1 => 'I am a whisperer',
2 => 'dogs are often hairy',
3 => 'dogs',
4 => 'are you a dogs whisperer',
5 => 'dogs can be manipulated by a whisperer');
function CreateSubsets($sstr)
{
$subsets = array();
$tokens = explode(" ", $sstr);
$count = count($tokens);
for ($i = $count; $i > 0; $i--)
{
for ($j = 0; $j + $i <= $count; $j++)
{
$subsets[] = implode(" ", array_slice($tokens, $j, $i));
}
}
return $subsets;
}
function SearchOccurrences($database, $subsets)
{
$resultAry = array();
for ($subIdx = 0; $subIdx < count($subsets); $subIdx++)
{
$occurrences = array();
for ($idx = 0; $idx < count($database); $idx++)
{
$dbval = $database[$idx];
$pos = strpos($dbval, $subsets[$subIdx]);
if ($pos !== false)
$occurrences[] = $idx;
}
$resultAry[$subIdx] = $occurrences;
}
return $resultAry;
}
header("Content-type: text/plain");
print "Database:\n";
print_r($database);
print "\n";
$sstr = "the dogs whisperer";
$subsets = CreateSubsets($sstr);
print "Subsets:\n";
print_r($subsets);
print "\n";
$results = SearchOccurrences($database, $subsets);
print "Results:\n";
print_r($results);
print "\n";
for ($i = 0; $i < count($subsets); $i++)
{
print "'$subsets[$i]' was found in:\n";
foreach ($results[$i] as &$resVal)
{
print " --> $database[$resVal]\n";
}
print "\n";
}
?>