使用REGEX而不是BETWEEN运算符进行SQL搜索

时间:2015-06-03 12:25:54

标签: mysql sql regex json mysqli

我有MySQL数据库,里面有广告。在该数据库的表的一个字段中,数据以json格式保存。在那个json格式的数据中,我有一个值,其中包含价格(带小数值)。

该字段(以例如ad_data命名)保存在数据库字段中,包含(json)数据,如下所示:

{{#each item in myData itemController="foo-item"}}
  {{item.foo}}
{{/each}}

我想在该字段中搜索,因此我可以找到搜索到的价格范围。例如,如果用户设置为html格式,他想在100.00到755.00的范围内搜索,则SQL应仅返回该字段(哪些数据保存为json)包含100.00到755.00之间的值。

所以基本上,我想用SQL中的REGEX为这个字段的json格式化内容写这样的东西(这里的数字只是例子,我必须能够对每个开始和结束的十进制数字和数字这个我会以编程方式通过):

{"single_input_51":"Ad 44 test.","price":"20.00","single_input_4":"ad test title, ad tes title, .","single_input_11":"8.8.2015.","single_input_5":"video test","single_input_6":"https://www.youtube.com/watch?v=nlTPeCs2puw"}

通过REGEX进行该搜索的SQL命令是什么?

2 个答案:

答案 0 :(得分:3)

不要使用REGEX进行比赛,这将是痛苦的。如果你有一个特定的价格范围,它可能是可行的,但动态生成正则表达式“工作”任何指定的价格范围,当价格可能是两个,三个或更多字符,这将是要努力(MySQL中的REGEXP函数只返回一个布尔值,表示是否找到了匹配项;它不会返回匹配的字符串部分。)

如果我必须对“价格”进行比较,我会解析字符串中的价格值,然后将其转换为数值,并对其进行比较。

例如:

SELECT t.col
  FROM mytable t 
 WHERE SUBSTRING_INDEX(SUBSTRING_INDEX(t.col,'"price":"',-1),'"',1) + 0
       BETWEEN 100.00 AND 755.00

要回答您提出的问题:您将使用REGEX ...

使用什么表达式来执行此匹配

对于“100.00到755.00之间的价格”,使用MySQL REGEXP,您需要的正则表达式类似于此查询的SELECT列表中的第二个表达式:

SELECT t.col
     , t.col REGEXP '"price":"([1-6][0-9][0-9]\.[0-9][0-9]|7[0-4][0-9]\.[0-9][0-9]|75[0-4]\.[0-9][0-9]|755\.00)"' AS _match
  FROM ( SELECT 'no' AS col
         UNION ALL SELECT 'no "price":"14.00"def'
         UNION ALL SELECT 'ok "price":"99.99" def'
         UNION ALL SELECT 'ok "price":"100.00" def'
         UNION ALL SELECT 'ok "price":"699.99" def'
         UNION ALL SELECT 'ok "price":"703.33" def'
         UNION ALL SELECT 'ok "price":"743.15" def'
         UNION ALL SELECT 'ok "price":"754.99" def'
         UNION ALL SELECT 'no "price":"755.01" def'
       ) t

本例中的正则表达式几乎是一个简单的例子,因为我们匹配的价格值在小数点前都有三位数。

需要为每个可能的值范围精心设计用于正则表达式的字符串。制作需要考虑小数点前不同位数的价格,并分别处理每一个。

要对95.551044.44之间的价格进行范围检查,需要将其制作成正则表达式来检查这些范围内的价格:

    95.55 thru   95.59         95\.5[5-9]
    95.60 thru   95.99         95\.[6-9][0-9]
    96.00 thru   99.99         9[6-9]\.[0-9][0-9] 
   100.00 thru  999.99         [1-9][0-9][0-9]\.[0-9][0-9]
  1000.00 thru 1039.99         10[0-3][0-9]\.[0-9][0-9]
  1040.00 thru 1043.99         1040[0-3]\.[0-9][0-9]
  1044.00 thru 1044.39         1044\.[0-3][0-9]
  1044.40 thru 1044.44         1044\.4[0-4]

可以这样做,但生成正则表达式字符串的代码不会很漂亮。 (并且进行全面测试也不会很好。)

答案 1 :(得分:0)

(@ spencer7593有一个好点;这里还有另外一点)

性能...如果您在该字段上有索引(优化程序决定使用索引),则BETWEEN可能比REGEXP快得多。

BETWEEN可以使用索引,从而最大限度地减少要查看的行数。

REGEXP总是要检查所有行。