任务是在向量化期间从词汇集中删除数字。我有以下代码:
callcenter=# select ts_lexize('russian_ispell', 'справка112');
ts_lexize
-----------
(1 строка)
callcenter=# select ts_lexize('simple', 'справка112');
ts_lexize
--------------
{справка112}
(1 строка)
callcenter=# select ts_lexize('russian_stem', 'справка112');
ts_lexize
--------------
{справка112}
(1 строка)
尽管它是俄语的,但可以看出,带有数字的整个单词都被识别为单词,这在任务上下文中是不正确的。在下面可以看到使用了哪些字典和解析器。
callcenter=# select * from ts_debug('ispell_russian', 'справка112');
alias | description | token | dictionaries | dictionary | lexemes
---------+--------------------------+------------+--------------------------------------+--------------+--------------
numword | Word, letters and digits | справка112 | {russian_ispell,russian_stem,simple} | russian_stem | {справка112}
(1 строка)
是否有办法从单词中删除这些数字,或者我必须搜索其他词典以从单词词典中删除这些数字?仅包含数字的词汇应使用数字解析器照常处理。