Question

我在书籍和流派之间有多对多的关系。例如＆＃34;霍比特人＆＃34;书可能有类型＆＃34;孩子＆＃34;，＆＃34;小说＆＃34;和＃34;幻想＆＃34;。

这是架构：

CREATE TABLE "genre" (
    "id" integer NOT NULL PRIMARY KEY,
    "name" varchar(50) NOT NULL
)
;
CREATE TABLE "book_genres" (
    "book_id" integer NOT NULL REFERENCES "book" ("id"),
    "genre_id" integer NOT NULL REFERENCES "genre" ("id"),
    CONSTRAINT book_genres_pkey PRIMARY KEY (book_id, genre_id)
)
;
CREATE TABLE "book" (
    "id" integer NOT NULL PRIMARY KEY,
    "name" varchar(255) NOT NULL,
    "price" real NOT NULL
)
;

指数：

CREATE INDEX "book_genres_36c249d7" ON "book_genres" ("book_id");
CREATE INDEX "book_genres_33e6008b" ON "book_genres" ("genre_id");
CREATE INDEX "book_5a5255da" ON "book" ("price");

行数：

类型：30
book_genres：800,000
书：200,000

我正在尝试在SQL中编写一个查询，它会返回按价格排序的特定类型的所有图书，而不会重复。

这是我的查询：

SELECT name, price 
FROM book 
WHERE book.id 
IN 
    (SELECT book_id 
    FROM book_genres
    WHERE genre_id = 1
    OR genre_id = 2)
ORDER BY price LIMIT 10

我的问题是表现。此查询最多可能需要2000毫秒才能执行。如何提高性能？

我可以完全控制数据库（Postgres 9.3），因此可以添加视图，索引或非规范化。我也在使用Django，因此可以使用Python / Django执行多个查询在内存中执行操作。

Answer 1

SELECT b.name, b.price
FROM book b
WHERE EXISTS (
    SELECT *
    FROM book_genres bg
    WHERE bg.book_id = b.id 
    AND bg.genre_id IN( 1 , 2)
    )
ORDER BY b.price 
LIMIT 10
        ;

按价格排序+ LIMIT可能是性能杀手：检查查询计划。

PLUS：将一列索引替换为＆＃34;反转＆＃34;指数：把book_id变成了书籍并且（可能）省略代理键id

CREATE TABLE book_genres
        ( book_id integer NOT NULL REFERENCES book (id)
        , genre_id integer NOT NULL REFERENCES genre (id)
        , PRIMARY KEY (book_id, genre_id)
        ) ;
CREATE INDEX ON book_genres  (genre_id,book_id);

Answer 2

在大多数情况下，您可以使用JOIN而不是子查询来提高性能（虽然这取决于很多因素）：

SELECT * 
FROM 
(
   SELECT b.name, b.price 
   FROM book b JOIN book_genres g ON b.book.id = g.book_id 
                              AND g.genre_id = 1
   UNION

   SELECT b.name, b.price 
   FROM book b JOIN book_genres g ON b.book.id = g.book_id 
                              AND g.genre_id = 2
)
ORDER BY price LIMIT 10

如何提高多对多SQL查询的性能？

2 个答案: