在SQLite中使用过滤器和分页查询多对多关系

时间:2019-06-23 05:46:45

标签: sqlite join nested

我试图对博客文章列表进行分页,并根据它们在SQLite数据库中可能具有的标签列表进行过滤。

帖子和标签之间存在n对n的关系,因此我创建了PostTag关系表。

CREATE TABLE "Post" (
    "Id"    INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT UNIQUE,
    "Title" TEXT
);


CREATE TABLE "Tag" (
    "Id"    INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT UNIQUE,
    "Label" TEXT
);


CREATE TABLE "PostTag" (
    "Id"    INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT UNIQUE,
    "PostId"    INTEGER,
    "TagId" INTEGER,
    FOREIGN KEY("PostId") REFERENCES "Post"("Id"),
    FOREIGN KEY("TagId") REFERENCES "Tag"("Id")
);

给出以下数据

INSERT INTO Post (Title) VALUES ('Post title 1'), ('Post title 2'), ('Post title 3');
INSERT INTO Tag (Label) VALUES ('news'), ('funny'), ('review');
INSERT INTO PostTag (PostId, TagId) VALUES (1, 1), (1, 2), (2, 3), (3, 2), (3, 3);

我正在尝试选择10个同时具有标签“新闻” “有趣”的帖子,因此我只希望返回“帖子标题1”(为澄清起见,我需要发布1将在此处返回两次,一次带有“ news”标签,一次带有“ funny”标签。

我正在使用DENSE_RANK在结果中实际包含10个不同的帖子,即使该联接可能返回超过10行。

我遇到的问题是如何管理标签值上的“ AND”运算符,即不返回仅包含标签之一的帖子。因此,在这里我不希望返回帖子3,因为它仅具有“有趣”标签,而没有“新闻”标签。

这是迄今为止我最好的查询(下面进行了更新),它将返回带有“新闻” “有趣”的帖子,这不是我想要的:

SELECT * FROM (
    SELECT p.*, t.*, DENSE_RANK() OVER(order by p.id desc) rnk
    FROM Post p
    JOIN PostTag pt ON p.Id = pt.PostId
    JOIN Tag t ON pt.TagId = t.Id AND t.Label IN ('news', 'funny')
    ORDER BY p.id desc
) ranked
WHERE rnk <= 10

请注意,我之后将使用dapper对帖子进行重复数据删除和重新分组,因此,每条帖子都出现几次并不是真正的问题(请阅读下面的更新以获取更多详细信息)。


更新:

查询必须返回匹配帖子的次数是其关联标签的数量(即使这些标签可能不在查询的标签中),如:

Id          Title           Id:2            Label           rnk
1           'Post Title 1'  1               'news'          1
1           'Post Title 1'  2               'funny'         1

如果稍后,有人会像这样向1添加标签:

INSERT INTO Tag (Label) VALUES ('tech'); -- id is 4
INSERT INTO PostTag (PostId, TagId) VALUES (1, 4);

查询结果应为

Id          Title           Id:2            Label           rnk
1           'Post Title 1'  1               'news'          1
1           'Post Title 1'  2               'funny'         1
1           'Post Title 1'  4               'tech'          1

因此,即使标签不在查询中,我也可以显示匹配的帖子及其所有标签。

我终于有了一些工作,但是它嵌套得很厉害,我真诚地想知道为什么这个问题最终变得如此混乱。难道没有办法直接依靠排名吗?

select * from ( 
    select  *, dense_rank() over(order by p.id desc) rnk 
    from Post p 
    join PostTag pt on p.Id = pt.PostId 
    join Tag t on pt.TagId = t.Id 
    and postId in (
        select postId from (
            select dense_rank() over(order by pt2.PostId) rnk2,
            from PostTag pt2 
            join Tag t2 on pt2.TagId = t2.Id 
            where t2.Label in ('news', 'funny')
        )
        group by rnk2
        having count(rnk2) == 2 -- 2 being the number of tags requested
    ) order by p.id desc 
) 
ranked where rnk <= 10

2 个答案:

答案 0 :(得分:1)

只是给你一个主意。

select * from (
    select p.*, t.*, dense_rank() over(order by p.id desc) rnk
    from Post p
    join PostTag on p.Id = PostId
    join Tag t on TagId = t.Id
    and postid in (select postid
                     from posttag join tag t on tagid = t.id
                     where label in ('news', 'funny')
                     group by postid having count(distinct tagid) > 1)
    order by p.id desc
) ranked
where rnk <= 10;

答案 1 :(得分:0)

您可以通过简单的分组方式来做到这一点,就像这样:

select p.id, p.title
from posttag pt
inner join post p on p.id = pt.postid
inner join tag t on t.id = pt.tagid
where t.label in ('news', 'funny')
group by p.id, p.title
having count(distinct t.id) = 2
order by p.id limit 10

请参见[temp.deduct]/7