Question

任务是在向量化期间从词汇集中删除数字。我有以下代码：

callcenter=# select ts_lexize('russian_ispell', 'справка112');
 ts_lexize
-----------

(1 строка)

callcenter=# select ts_lexize('simple', 'справка112');
  ts_lexize
--------------
 {справка112}
(1 строка)

callcenter=# select ts_lexize('russian_stem', 'справка112');
  ts_lexize
--------------
 {справка112}
(1 строка)

尽管它是俄语的，但可以看出，带有数字的整个单词都被识别为单词，这在任务上下文中是不正确的。在下面可以看到使用了哪些字典和解析器。

callcenter=# select * from ts_debug('ispell_russian', 'справка112');
  alias  |       description        |   token    |             dictionaries             |  dictionary  |   lexemes
---------+--------------------------+------------+--------------------------------------+--------------+--------------
 numword | Word, letters and digits | справка112 | {russian_ispell,russian_stem,simple} | russian_stem | {справка112}
(1 строка)

是否有办法从单词中删除这些数字，或者我必须搜索其他词典以从单词词典中删除这些数字？仅包含数字的词汇应使用数字解析器照常处理。

在PostgreSQL全文搜索中从词法中删除数字

0 个答案: