MYSQL错误:#3699-正则表达式匹配中超出了超时

时间:2019-07-02 18:21:55

标签: mysql regex timeout full-text-search

使用REGEX运行MYSQL查询,我收到超时错误。

我在具有Ubuntu 16的AWS上有一个Bitnami NGINX Wordpress堆栈。

使用MYSQL 8.0.16

要停止此错误,我需要更改MYSQL(或其他任何地方)中的哪些设置?

帮助表示赞赏。

尝试播放my.cnf文件并重新启动MYSQL,但我不知道哪个超时设置,似乎有几个

这是SQL查询

REPLACE INTO wp_term_relationships (term_taxonomy_id, object_id) SELECT '272',  ID
FROM  `wp_posts` 
   WHERE (
   post_title REGEXP 'German|Deutsch|Berlin|Hamburg|Munich|München|Cologne|Köln|Frankfurt|Stuttgart|Düsseldorf|Dortmund|Essen|Leipzig|Bremen|Dresden|Hanover|Hannover|Nuremberg|Nürnberg|Duisburg|Bochum|Wuppertal|Bielefeld|Bonn|Münster|Karlsruhe|Mannheim|Augsburg|Wiesbaden|Gelsenkirchen|Mönchengladbach|Braunschweig|Chemnitz|Kiel|Aachen|Halle|Saale|Magdeburg|Freiburg|Krefeld|Lübeck|Oberhausen|Erfurt|Mainz|Rostock|Kassel|Hagen|Hamm|Saarbrücken|Mülheim|Potsdam|Ludwigshafen|Oldenburg|Leverkusen|Osnabrück|Solingen|Heidelberg|Herne|Neuss|Darmstadt|Paderborn|Regensburg|Ingolstadt|Würzburg|Fürth|Wolfsburg|Offenbach|Ulm|Heilbronn|Pforzheim|Göttingen|Bottrop|Trier|Recklinghausen|Reutlingen|Bremerhaven|Koblenz|Bergisch Gladbach|Jena|Remscheid|Erlangen|Moers|Siegen|Hildesheim|Salzgitter|Baden-Württemberg|Bavaria|Bayern|Berlin|Brandenburg|Bremen|Hesse|Hessen|Lower Saxony|Niedersachsen|Mecklenburg-Vorpommern|North Rhine-|Westphalia|Nordrhein-Westfalen|Rhineland-Palatinate|Rheinland-Pfalz|Saarland|Saxony|Sachsen|Saxony-Anhalt|Sachsen-Anhalt|Schleswig-Holstein|Thuringia|Thüringen' 
   OR post_content REGEXP 'German|Deutsch|Berlin|Hamburg|Munich|München|Cologne|Köln|Frankfurt|Stuttgart|Düsseldorf|Dortmund|Essen|Leipzig|Bremen|Dresden|Hanover|Hannover|Nuremberg|Nürnberg|Duisburg|Bochum|Wuppertal|Bielefeld|Bonn|Münster|Karlsruhe|Mannheim|Augsburg|Wiesbaden|Gelsenkirchen|Mönchengladbach|Braunschweig|Chemnitz|Kiel|Aachen|Halle|Saale|Magdeburg|Freiburg|Krefeld|Lübeck|Oberhausen|Erfurt|Mainz|Rostock|Kassel|Hagen|Hamm|Saarbrücken|Mülheim|Potsdam|Ludwigshafen|Oldenburg|Leverkusen|Osnabrück|Solingen|Heidelberg|Herne|Neuss|Darmstadt|Paderborn|Regensburg|Ingolstadt|Würzburg|Fürth|Wolfsburg|Offenbach|Ulm|Heilbronn|Pforzheim|Göttingen|Bottrop|Trier|Recklinghausen|Reutlingen|Bremerhaven|Koblenz|Bergisch Gladbach|Jena|Remscheid|Erlangen|Moers|Siegen|Hildesheim|Salzgitter|Baden-Württemberg|Bavaria|Bayern|Berlin|Brandenburg|Bremen|Hesse|Hessen|Lower Saxony|Niedersachsen|Mecklenburg-Vorpommern|North Rhine-|Westphalia|Nordrhein-Westfalen|Rhineland-Palatinate|Rheinland-Pfalz|Saarland|Saxony|Sachsen|Saxony-Anhalt|Sachsen-Anhalt|Schleswig-Holstein|Thuringia|Thüringen'
   )
   AND post_type = 'post'
  

#3699-正则表达式匹配中超时。

*更新-不确定如何在评论中添加图片,因此请在此处添加。

变量设置,请@Rick James欢呼如何列出它们

enter image description here

3 个答案:

答案 0 :(得分:1)

您应该将正则表达式改成Trie。
对于引擎而言,这工作量较少,最多只需要做16个步骤即可
而不是当前的110个步骤。

尝试

A(?:achen|ugsburg)|B(?:a(?:den-Württemberg|varia|yern)|er(?:gisch[ ]Gladbach|lin)|ielefeld|o(?:chum|nn|ttrop)|r(?:a(?:ndenbur|unschwei)g|eme(?:rhave)?n))|C(?:hemnitz|ologne)|D(?:armstadt|eutsch|ortmund|resden|uisburg|üsseldorf)|E(?:r(?:furt|langen)|ssen)|F(?:r(?:ankfurt|eiburg)|ürth)|G(?:e(?:lsenkirche|rma)n|öttingen)|H(?:a(?:gen|lle|m(?:burg|m)|n(?:n)?over)|e(?:i(?:delberg|lbronn)|rne|ssen?)|ildesheim)|Ingolstadt|Jena|K(?:a(?:rlsruhe|ssel)|iel|oblenz|refeld|öln)|L(?:e(?:ipzig|verkusen)|ower[ ]Saxony|udwigshafen|übeck)|M(?:a(?:gdeburg|inz|nnheim)|ecklenburg-Vorpommern|oers|unich|önchengladbach|ü(?:lheim|n(?:chen|ster)))|N(?:euss|iedersachsen|or(?:drhein-Westfalen|th[ ]Rhine-)|uremberg|ürnberg)|O(?:berhausen|ffenbach|ldenburg|snabrück)|P(?:aderborn|forzheim|otsdam)|R(?:e(?:cklinghausen|gensburg|mscheid|utlingen)|h(?:einland-Pfalz|ineland-Palatinate)|ostock)|S(?:a(?:a(?:le|r(?:brücken|land))|chsen(?:-Anhalt)?|lzgitter|xony(?:-Anhalt)?)|chleswig-Holstein|iegen|olingen|tuttgart)|T(?:h(?:uringia|üringen)|rier)|Ulm|W(?:estphalia|iesbaden|olfsburg|uppertal|ürzburg)

如果您的引擎不支持非捕获语法,请将(?:更改为(
另外,如果要压缩,可以将[ ]更改为空格
正则表达式。

https://regex101.com/r/iEzw33/1

扩展

    A
    (?: achen | ugsburg )
 |  B
    (?:
         a
         (?: den-Württemberg | varia | yern )
      |  er
         (?: gisch [ ] Gladbach | lin )
      |  ielefeld
      |  o
         (?: chum | nn | ttrop )
      |  r
         (?:
              a
              (?: ndenbur | unschwei )
              g
           |  eme
              (?: rhave )?
              n
         )
    )
 |  C
    (?: hemnitz | ologne )
 |  D
    (?:
         armstadt
      |  eutsch
      |  ortmund
      |  resden
      |  uisburg
      |  üsseldorf
    )
 |  E
    (?:
         r
         (?: furt | langen )
      |  ssen
    )
 |  F
    (?:
         r
         (?: ankfurt | eiburg )
      |  ürth
    )
 |  G
    (?:
         e
         (?: lsenkirche | rma )
         n
      |  öttingen
    )
 |  H
    (?:
         a
         (?:
              gen
           |  lle
           |  m
              (?: burg | m )
           |  n
              (?: n )?
              over
         )
      |  e
         (?:
              i
              (?: delberg | lbronn )
           |  rne
           |  ssen?
         )
      |  ildesheim
    )
 |  Ingolstadt
 |  Jena
 |  K
    (?:
         a
         (?: rlsruhe | ssel )
      |  iel
      |  oblenz
      |  refeld
      |  öln
    )
 |  L
    (?:
         e
         (?: ipzig | verkusen )
      |  ower [ ] Saxony
      |  udwigshafen
      |  übeck
    )
 |  M
    (?:
         a
         (?: gdeburg | inz | nnheim )
      |  ecklenburg-Vorpommern
      |  oers
      |  unich
      |  önchengladbach
      |  ü
         (?:
              lheim
           |  n
              (?: chen | ster )
         )
    )
 |  N
    (?:
         euss
      |  iedersachsen
      |  or
         (?: drhein-Westfalen | th [ ] Rhine- )
      |  uremberg
      |  ürnberg
    )
 |  O
    (?:
         berhausen
      |  ffenbach
      |  ldenburg
      |  snabrück 
    )
 |  P
    (?: aderborn | forzheim | otsdam )
 |  R
    (?:
         e
         (?:
              cklinghausen
           |  gensburg
           |  mscheid
           |  utlingen 
         )
      |  h
         (?: einland-Pfalz | ineland-Palatinate )
      |  ostock
    )
 |  S
    (?:
         a
         (?:
              a
              (?:
                   le
                |  r
                   (?: brücken | land )
              )
           |  chsen
              (?: -Anhalt )?
           |  lzgitter
           |  xony
              (?: -Anhalt )?
         )
      |  chleswig-Holstein
      |  iegen
      |  olingen
      |  tuttgart
    )
 |  T
    (?:
         h
         (?: uringia | üringen )
      |  rier
    )
 |  Ulm
 |  W
    (?:
         estphalia
      |  iesbaden
      |  olfsburg
      |  uppertal
      |  ürzburg
    )

让我们检查速度:

Regex1:   A(?:achen|ugsburg)|B(?:a(?:den-Württemberg|varia|yern)|er(?:gisch[ ]Gladbach|lin)|ielefeld|o(?:chum|nn|ttrop)|r(?:a(?:ndenbur|unschwei)g|eme(?:rhave)?n))|C(?:hemnitz|ologne)|D(?:armstadt|eutsch|ortmund|resden|uisburg|üsseldorf)|E(?:r(?:furt|langen)|ssen)|F(?:r(?:ankfurt|eiburg)|ürth)|G(?:e(?:lsenkirche|rma)n|öttingen)|H(?:a(?:gen|lle|m(?:burg|m)|n(?:n)?over)|e(?:i(?:delberg|lbronn)|rne|ssen?)|ildesheim)|Ingolstadt|Jena|K(?:a(?:rlsruhe|ssel)|iel|oblenz|refeld|öln)|L(?:e(?:ipzig|verkusen)|ower[ ]Saxony|udwigshafen|übeck)|M(?:a(?:gdeburg|inz|nnheim)|ecklenburg-Vorpommern|oers|unich|önchengladbach|ü(?:lheim|n(?:chen|ster)))|N(?:euss|iedersachsen|or(?:drhein-Westfalen|th[ ]Rhine-)|uremberg|ürnberg)|O(?:berhausen|ffenbach|ldenburg|snabrück)|P(?:aderborn|forzheim|otsdam)|R(?:e(?:cklinghausen|gensburg|mscheid|utlingen)|h(?:einland-Pfalz|ineland-Palatinate)|ostock)|S(?:a(?:a(?:le|r(?:brücken|land))|chsen(?:-Anhalt)?|lzgitter|xony(?:-Anhalt)?)|chleswig-Holstein|iegen|olingen|tuttgart)|T(?:h(?:uringia|üringen)|rier)|Ulm|W(?:estphalia|iesbaden|olfsburg|uppertal|ürzburg)
Completed iterations:   50  /  50     ( x 1000 )
Matches found per iteration:   110
Elapsed Time:    5.74 s,   5736.58 ms,   5736578 µs
Matches per sec:   958,759

哇,每秒匹配一百万个单词!

答案 1 :(得分:0)

“超时”可能是由于对大型表的查询缓慢所致。因此,让我们解决查询的速度。

  • REPLACEDELETE + INSERT
  • REPLACE is slow due to the删除. And it will lose term_order`(如果已设置)。
  • 考虑改用INSERT IGNORE
  • 由于WHEREORREGEXP子句将需要扫描整个表。 FULLTEXT索引可以避免这种情况;参见下文。
  • 重构REGEXP并没有多大帮助;更改为LIKE可能会更慢;等
  • 如果超时确实在REGEXP引擎内部,则您可能需要一次在几个城市运行查询。

FULLTEXT将大大提高速度。但是,如果您不想朝这个方向发展,那么下一个最好的选择就是将REPLACE更改为INSERT IGNORE

FULLTEXT方法是:

ALTER TABLE wp_posts ADD FULLTEXT(post_title, post_content);  -- one-time task

INSERT IGNORE INTO ... (...)
    SELECT 272, ID
        FROM wp_posts
        WHERE MATCH(post_title, post_content)
              AGAINST('German Deutsch Berlin Hamburg Munich München ...' IN BOOLEAN MODE)

(重音的处理可能存在问题,具体取决于MySQL的版本以及使用的ENGINE。)

答案 2 :(得分:0)

SET GLOBAL regexp_time_limit=1024;

(有关文档,请参见here