针对性发生

时间:2013-03-01 20:58:53

标签: php arrays string count

我有一个简单的非关联数组,有几千个值 值为1-10个字符串。

我需要找到阵列中具有最多“命中”的3-4个连续单词串。

这是字母数字且不区分大小写。

命中可能是:

字符串的任何单个单词都出现在数组的一个项目中。 任何一组多个连续单词都出现在数组的一个项目中。

所以,一个例子:

$database = array(
  0 => 'the dogs whisperer',
  1 => 'I am a whisperer',
  2 => 'dogs are often hairy',
  3 => 'dogs',
  4 => 'are you a dogs whisperer'
  5 => 'dogs can be manipulated by a whisperer');

三个单词串“the dog whisperer”会得到以下点击:

“狗的低语者”中的“狗悄悄话”

“狗悄悄话”中的“狗悄悄话”

“狗的低声说话者”中的“狗”

“the the the whisperer”中的“the”

“狗语者”中的“狗”

“小狗低语中的低语者”

“我是一个低语者”中的“低语者”

“狗”中的“狗”通常是毛茸茸的“

“狗”中的“狗”

“狗悄悄话”中的“你是狗的低语者”

“狗”中的“你是狗的低语者”

“低语者”中的“你是狗的低语者”

“狗”中的“狗”可以被低声说话者操纵“

“狗中的”低语者“可以被低声说话者操纵”

为了使多字词串得到命中,这些词必须是连续的。即“狗悄悄话”不是一个打击“狗可以被低声说话者操纵。

词语也必须有序。即“狗低语”并不是“低语犬”的价值所在。

我很好地掌握了不同的数组函数,我只是无法将它们全部放在一起。我尝试通过单词爆炸和重新组合来提取所有可能的字符串集,然后使用strpos!== FALSE来查找命中。我最终得到了一个巨大的矩阵,我无法从我需要的输出中获得。

1 个答案:

答案 0 :(得分:0)

我希望这就是你要找的东西。我相信你可以优化很多,但我认为这会指出你正确的方向。

HTH,安迪

<?php
  $database = array(
  0 => 'the dogs whisperer',
  1 => 'I am a whisperer',
  2 => 'dogs are often hairy',
  3 => 'dogs',
  4 => 'are you a dogs whisperer',
  5 => 'dogs can be manipulated by a whisperer');

  function CreateSubsets($sstr)
  {
    $subsets = array();

    $tokens = explode(" ", $sstr);
    $count = count($tokens);

    for ($i = $count; $i > 0; $i--) 
    {
      for ($j = 0; $j + $i <= $count; $j++)
      {
        $subsets[] = implode(" ", array_slice($tokens, $j, $i));
      }      
    } 

    return $subsets;   
  }

  function SearchOccurrences($database, $subsets)
  {
    $resultAry = array();

    for ($subIdx = 0; $subIdx < count($subsets); $subIdx++) 
    {
      $occurrences = array();
      for ($idx = 0; $idx < count($database); $idx++) 
      {
        $dbval = $database[$idx];

        $pos = strpos($dbval, $subsets[$subIdx]);
        if ($pos !== false)
          $occurrences[] = $idx;

      }
      $resultAry[$subIdx] = $occurrences;   
    }

    return $resultAry;
  }

  header("Content-type: text/plain");

  print "Database:\n";
  print_r($database); 
  print "\n"; 

  $sstr = "the dogs whisperer";
  $subsets = CreateSubsets($sstr);  

  print "Subsets:\n";
  print_r($subsets);
  print "\n"; 

  $results = SearchOccurrences($database, $subsets);

  print "Results:\n";
  print_r($results);    
  print "\n"; 

  for ($i = 0; $i < count($subsets); $i++) 
  {
    print "'$subsets[$i]' was found in:\n";
    foreach ($results[$i] as &$resVal) 
    {
      print "  --> $database[$resVal]\n";      
    } 
    print "\n"; 
  }
?>