使用PostgreSQL时,您可以在使用全文搜索时将URL拆分为多个不同的词汇。例如:
SELECT to_tsvector('http://www.example.com/dir/page.html');
to_tsvector
--------------------------------------------------------------------------
'/dir/page.html':3 'www.example.com':2 'www.example.com/dir/page.html':1
(1 row)
您可以看到PostgreSQL已将http://www.example.com/dir/page.html
分解为URL减去协议(www.example.com/dir/page.html
),主机(www.example.com
)和url_path(/dir/page.html
)。这很方便,因为它可以让您快速搜索www.example.com
。
在此背景下,SphinxSearch如何处理索引URL?它是否与PostgreSQL类似,它将URL拆分为多个部分,以便轻松搜索?
答案 0 :(得分:0)
它实际上只是使用charset_table中未列出的任何字符来分解源文本
通常如此。和/只算作分隔符,这样一个网址就可以被字母组搜索 - 有用地结合短语运算符