Question

让我来描述我的问题。有一个输入字符串，以及一个包含数千个字符串的表。我正在寻找最好的方法来搜索输入字符串中最相似的*字符串。搜索应返回~10个建议字符串的列表，按相似度排序。字符串在数据库中也有与其相关的数字权重（流行度），在另一列中，因此权重较高的字符串应该有更高的机会出现在结果中，如果可能的话。

实现这一目标的最佳图书馆是什么？我想，我正在寻找类似于Elasticsearch的东西。我对这些类型的库没有太多经验，所以我需要一些容易包含在我的项目中的东西，最好是开源的。我正在使用Python（Flask和SQLAlchemy）和Postgresql，但也可以使用例如Node.js，如果需要的话。

*我还想澄清一下我在寻找什么样的相似性。理想情况下，它将是语义相似性，但词汇相似性也很好。我会很满意任何有效的，易于实现的，并且尽可能具有可扩展性和高性能。

输入句子示例：

我不喜欢cangaroos。

数据库中的示例建议：

袋鼠不是我的最爱。
袋鼠是邪恶的。
我曾经吃过一个cangaroo。再也不会了。

这些建议应首先出现，因为'cangaroo'在我的数据库中并不常见，因此任何带有'cangaroo'字样的字符串都应该很有可能出现在结果中。检测'不喜欢'可能要困难得多，所以这部分对我来说完全是可选的。

P.S。 PostgreSQL的全文搜索可以做这样的事吗？

谢谢。

Answer 1

PostgreSQL全文搜索无法完成您正在寻找的内容。但是，PostgreSQL trigram similarity可以做到。

您首先需要安装具有＆＃39; trigram相似性的软件包＆＃39;和＆＃39; btree_gist＆＃39;，通过在您的数据库中执行（一次）：

CREATE EXTENSION pg_trgm;
CREATE EXTENSION btree_gist;

我假设您有一个看起来像这样的表：

CREATE TABLE sentences
(
    sentence_id integer PRIMARY KEY,
    sentence text
) ;

INSERT INTO sentences (sentence_id, sentence)
VALUES
    (1, 'Cangaroos are not my favorite.'),
    (2, 'A vegetable sentence.'),
    (3, 'Cangaroos are evil.'),
    (4, 'Again, some plants in my garden.'),
    (5, 'I once had a cangaroo. Never again.') ;

这个表需要一个＆＃39;三元组索引，以允许PostgreSQL数据库通过相似性来索引＆＃39;。这是通过执行：

来完成的

CREATE INDEX ON sentences USING GIST (sentence gist_trgm_ops, sentence_id) ;

要查找您正在寻找的答案，请执行：

-- Set the minimum similarity you want to be able to search
SELECT set_limit(0.2) ;

-- And now, select the sentences 'similar' to the input one
SELECT
    similarity(sentence, 'I don''t like cangaroos') AS similarity, 
    sentence_id,
    sentence
FROM
    sentences
WHERE
    /* That's how you choose your sentences:
       % means 'similar to', in the trigram sense */
    sentence % 'I don''t like cangaroos'
ORDER BY
    similarity DESC ;

您得到的结果是：

similarity | sentence_id | sentence
-----------+-------------+-------------------------------------
    0.3125 |           3 | Cangaroos are evil.      
    0.2325 |           1 | Cangaroos are not my favorite.
    0.2173 |           5 | I once had a cangaroo. Never again.

希望这会给你你想要的东西......

搜索数据库中（类似）字符串的可扩展方法

1 个答案: