PHP / MySQL更好的用户搜索

时间:2017-01-17 01:32:24

标签: php mysql arrays multilingual legacy-code

在尝试重新编写代码时,我大多写了14年多。我已经看到我写的可爱的小设置是......缺少某些地方,即处理用户输入。

课程:永远不要低估用户通过验证器注入垃圾邮件,拼写错误和欺骗行为的能力。

旧的方式达到了临界质量,因为现在SELECT下拉列表中有470个项目。我想重新发明这个过程的一部分,所以我不必担心它会达到一个突破点。

所以我的想法是建立一个模糊搜索方法,以便在打字员输入搜索字符串后,检查五个数据,所有数据都位于同一行。

我需要根据舞台名称检查提交的名称,两个也称为名称,以及他们的合法名称,并根据他们的舞台名称对soundex()索引进行最终检查(这会抓住一些错误拼写错误)

我已经尝试了一个复杂的代码块来检查这些东西(并且它不起作用,主要是因为我认为我将比较编码得过于严格)作为do / while循环的一部分。

在下面,var $Rin将包含用户提供的名称。

$setr = mysql_query("SELECT ID,StageName,AKA1,AKA2,LegalName,SoundEx FROM performers");
IF ($R = mysql_fetch_array($setr)) {
    do {
        $RT = substr(trim($Rin), 5);
        $RT1 = substr($R[1], 5);
        $RT2 = substr($R[2], 5);
        $RT3 = substr($R[3], 5);
        $RT4 = substr($R[4], 5);
        $RTx = soundex($RT);
        IF ($RT == $RT1) {
            $RHits[] = $R[0];
        }
        IF ($RT == $RT2) {
            $RHits[] = $R[0];
        }
        IF ($RT == $RT3) {
            $RHits[] = $R[0];
        }
        IF ($RT == $RT4) {
            $RHits[] = $R[0];
        }
        IF ($RTx == $R[5]) {
            $RHits[] = $R[0];
        }
    } while ($R = mysql_fetch_array($setr));
}

我的想法是,我将构建一个近似命中的ID#的数组,我将填充到一个选择下拉列表,只有希望减少整个表的命中率。这意味着从该数组的内容查询结果集,以便在SELECT下拉列表中显示Performer的名称,并将ID#作为这些选项的值传递。

当我点击'我需要在我的WHERE子句中使用数组'问题时,在找到答案之后,我开始怀疑由于下面的规定#2而我运气不好。所以我开始研究替代搜索方法,我不确定我是否已经得到了更多的困惑。

那么,有没有更好的方法来扫描单个表中的六个字段,检查五个用户输入并注意第六个显示在原始表的子集中?

思维过程

针对整个表格,按照每个记录,按此顺序对这些测试测试$ Rin:

$ Rin - >艺名
$ Rin - > AKA1
$ Rin - > AKA2
$ Rin - > LegalName
soundex($ Rin) - >的SoundEx

其中五个操作中的任何一个操作都会将ID#添加到结果数组中,该结果数组用于将470个表现者的结果缩小到可供选择的合理列表。

规定

1)如上所述,我知道这很容易受到SQL注入攻击。

2)服务器运行PHP 4.4.9和MySQL 4.0.27-Standard,我无法升级它。在花钱之前,我必须证明它有效。

3)这是业余爱好的东西,而不是我的日常工作。

4)表演者经常在名字中使用非英文名称或元素,这导致数据输入打字员的拼写错误和重复。

我发现了很多关于这类事情的mysqli和PDO答案,而且我看到很多事情只有一半是有道理的(如下面的链接#4)。我正在努力加快这些事情的速度,因为我试着解决什么问题。“

已经看过的地方

  1. PHP mysql using an array in WHERE clause
  2. PHP/MySQL small-scale fuzzy search
  3. MySQL SubString Fuzzy Search
  4. Sophisticated Name Lookup

1 个答案:

答案 0 :(得分:1)

我在评论中提到Javascript typeahead库可能是一个不错的选择。我发现Twitter的Typeahead库和Bloodhound引擎非常强大。不幸的是,文档是一个混合包:只要你需要的东西与他们的例子非常相似,你就是金色的,但是缺少某些细节(例如,令牌化器的解释)。

在Stack Overflow的several questions re Typeahead之一中,@ JensAKoch说:

  

老实说,我觉得twitter放弃了typeahead.js。我们看看13000颗星,一个没有维护者和破坏软件的完整bugtracker,最后一个版本是2015年。我认为这说明了一下,不是吗? ...所以,试试其中一个分叉:github.com/corejavascript/typeahead.js

坦率地说,在一个简短的检查中,fork的文档看起来好一点,如果没有其他的话。您可能希望查看它。

服务器端代码:

使用旧版PHP的所有注意事项都适用。我强烈建议重新使用PDO和PHP 5,但是这个例子使用了PHP 4。

完全未经测试的PHP代码。 json_encode()会更好,但直到PHP 5才出现。你的终端会是这样的:

headers("Content-Type: application/json");
$results = mysql_query(
   "SELECT ID,StageName,AKA1,AKA2,LegalName,SoundEx FROM performers"
);

$fields = array("ID","StageName","AKA1","AKA2","LegalName","SoundEx");

echo "[";

$first =  true;
while ($row = mysql_fetch_array($results)) {
    ($first) ? $first = false : echo ',';

    echo "\n\t,{";
    foreach($fields as $f) {
        echo "\n\t\t\"{$f}\": \"".$row[$f]."\"";
    }
    echo "\n\t}";
}
echo "]";

客户端代码:

此示例使用static JSON file作为所有结果的存根。如果您预计结果集超过1,000个条目,则应查看remote option of Bloodhound。这将要求您编写一些自定义PHP代码来处理查询,但它看起来很像转储所有(或至少是您最常见的)数据的终点。

var actors = new Bloodhound({
  // Each row is an object, not a single string, so we have to modify the
  // default datum tokenizer. Pass in the list of object fields to be
  // searchable.
  datumTokenizer: Bloodhound.tokenizers.obj.nonword(
    'StageName','AKA1','AKA2','LegalName','SoundEx'
  ),
  queryTokenizer: Bloodhound.tokenizers.whitespace,
  // URL points to a json file that contains an array of actor JSON objects
  // Visit the link to see details 
  prefetch: 'https://gist.githubusercontent.com/tag/81e4450de8eca805f436b72e6d7d1274/raw/792b3376f63f89d86e10e78d387109f0ad7903fd/dummy_actors.json'
});

// passing in `null` for the `options` arguments will result in the default
// options being used
$('#prefetch .typeahead').typeahead(
    {
        highlight: true
    },
   {
        name: 'actors',
        source: actors,
        templates: {
        empty: "<div class=\"empty-message\">No matches found.</div>",
        
        // This is simply a function that accepts an object.
        // You may wish to consider Handlebars instead.
        suggestion: function(obj) {
            return '<div class="actorItem">'
                + '<span class="itemStageName">'+obj.StageName+"</span>"
                + ', <em>legally</em> <span class="itemLegalName">'+obj.LegalName+"</span>"
        }
        //suggestion: Handlebars.compile('<div><strong>{{value}}</strong> – {{year}}</div>')
      },
      display: "LegalName" // name of object key to display when selected
      // Instead of display, you can use the 'displayKey' option too:
      // displayKey: function(actor) {
      //     return actor.LegalName;
      // }
});
/* These class names can me specified in the Typeahead options hash. I use the defaults here. */
    .tt-suggestion {
        border: 1px dotted gray;
        padding: 4px;
        min-width: 100px;
    }
    .tt-cursor {
        background-color: rgb(255,253,189);
    }
    
    /* These classes are used in the suggestion template */
    .itemStageName {
        font-size: 110%;
    }
    .itemLegalName {
        font-size: 110%;
        color: rgb(51,42,206);
    }
<script src="https://code.jquery.com/jquery-3.1.1.min.js"></script>
<script src="https://twitter.github.io/typeahead.js/releases/latest/typeahead.bundle.js"></script>


<p>Type something here. A good search term might be 'C'.</p>
<div id="prefetch">
  <input class="typeahead" type="text" placeholder="Name">
</div>

为方便起见,这里是Gist of the client-side code