如何选择每个类别的最新四个项目?

时间:2009-09-18 03:59:31

标签: sql mysql greatest-n-per-group

我有一个项目数据库。每个项目都使用类别表中的类别ID进行分类。我正在尝试创建一个列出每个类别的页面,在每个类别下面我想要显示该类别中的4个最新项目。

例如:

宠物用品

img1
img2
img3
img4

宠物食品

img1
img2
img3
img4

我知道我可以通过查询每个类别的数据库来轻松解决这个问题:

SELECT id FROM category

然后迭代该数据并查询每个类别的数据库以获取最新项目:

SELECT image FROM item where category_id = :category_id 
ORDER BY date_listed DESC LIMIT 4

我想弄清楚的是,我是否只能使用1个查询并获取所有数据。我有33个类别,所以我想也许这有助于减少对数据库的调用次数。

任何人都知道这是否可行?或者,如果33次通话不是那么大,我应该这么简单。

8 个答案:

答案 0 :(得分:80)

这是每组最大的问题,这是一个非常常见的SQL问题。

以下是我用外连接解决它的方法:

SELECT i1.*
FROM item i1
LEFT OUTER JOIN item i2
  ON (i1.category_id = i2.category_id AND i1.item_id < i2.item_id)
GROUP BY i1.item_id
HAVING COUNT(*) < 4
ORDER BY category_id, date_listed;

我假设item表的主键是item_id,并且它是一个单调递增的伪表。也就是说,item_id中较大的值对应item中的较新行。

以下是它的工作原理:对于每个项目,还有一些更新的其他项目。例如,有三个项目比第四个最新项目更新。没有比最新项目更新的项目。因此,我们希望将每个项目(i1)与较新且与i2具有相同类别的项目集i1)进行比较。如果这些较新项目的数量少于四个,则i1是我们包含的项目之一。否则,请不要包含它。

此解决方案的优点在于,无论您拥有多少类别,它都能正常运行,并且如果您更改类别,它将继续工作。即使某些类别中的项目数少于四个,它也会起作用。


另一个可行的解决方案,但依赖于MySQL用户变量功能:

SELECT *
FROM (
    SELECT i.*, @r := IF(@g = category_id, @r+1, 1) AS rownum, @g := category_id
    FROM (@g:=null, @r:=0) AS _init
    CROSS JOIN item i
    ORDER BY i.category_id, i.date_listed
) AS t
WHERE t.rownum <= 3;

MySQL 8.0.3引入了对SQL标准窗口函数的支持。现在我们可以像其他RDBMS那样解决这类问题:

WITH numbered_item AS (
  SELECT *, ROW_NUMBER() OVER (PARTITION BY category_id ORDER BY item_id) AS rownum
  FROM item
)
SELECT * FROM numbered_item WHERE rownum <= 4;

答案 1 :(得分:5)

此解决方案是another SO solution的改编版,感谢RageZ查找此相关/类似问题。

注意

对于Justin的用例,这个解决方案似乎令人满意。根据您的使用情况,您可能需要在此帖子中查看Bill Karwin或David Andres的解决方案。比尔的解决方案有我的投票!看看为什么,因为我把两个查询放在一起; - )

我的解决方案的好处是它每个category_id返回一条记录(项目表中的信息是“累计”)。我的解决方案的主要缺点是缺乏可读性,并且随着所需行数的增加而增加复杂性(比如说每个类别有6行而不是6行)。此外,随着项目表中行数的增加,它可能会略微变慢。 (无论如何,所有解决方案都会在项目表中使用较少数量的符合条件的行时表现更好,因此建议您定期删除或移动较旧的项目和/或引入标记以帮助SQL尽早过滤掉行)

首先尝试(不起作用!!!)......

这种方法的问题在于子查询[对我们来说是正确但不好]会产生很多行,基于自连接定义的笛卡尔积...

SELECT id, CategoryName(?), tblFourImages.*
FROM category
JOIN (
    SELECT i1.category_id, i1.image as Image1, i2.image AS Image2, i3.image AS Image3, i4.image AS Image4
    FROM item AS i1
    LEFT JOIN item AS i2 ON i1.category_id = i2.category_id AND i1.date_listed > i2.date_listed
    LEFT JOIN item AS i3 ON i2.category_id = i3.category_id AND i2.date_listed > i3.date_listed
    LEFT JOIN item AS i4 ON i3.category_id = i4.category_id AND i3.date_listed > i4.date_listed
) AS tblFourImages ON tblFourImages.category_id = category.id
--WHERE  here_some_addtional l criteria if needed
ORDER BY id ASC;

第二次尝试。(工作正常!)

为子查询添加了一个WHERE子句,强制列出的日期分别是i1,i2,i3等的最新,第二,最新,等等(并且当少于的时候也允许空的情况)给定类别ID的4个项目。还添加了不相关的过滤器子句,以防止显示“已售出”的条目或没有图像的条目(添加的要求)

此逻辑假设没有列出重复日期的值(对于给定的category_id)。否则,这种情况会产生重复的行。 有效地使用列出的日期是Bill解决方案中定义/要求的单调递增主键。

SELECT id, CategoryName, tblFourImages.*
FROM category
JOIN (
    SELECT i1.category_id, i1.image as Image1, i2.image AS Image2, i3.image AS Image3, i4.image AS Image4, i4.date_listed
    FROM item AS i1
    LEFT JOIN item AS i2 ON i1.category_id = i2.category_id AND i1.date_listed > i2.date_listed AND i2.sold = FALSE AND i2.image IS NOT NULL
          AND i1.sold = FALSE AND i1.image IS NOT NULL
    LEFT JOIN item AS i3 ON i2.category_id = i3.category_id AND i2.date_listed > i3.date_listed AND i3.sold = FALSE AND i3.image IS NOT NULL
    LEFT JOIN item AS i4 ON i3.category_id = i4.category_id AND i3.date_listed > i4.date_listed AND i4.sold = FALSE AND i4.image IS NOT NULL
    WHERE NOT EXISTS (SELECT * FROM item WHERE category_id = i1.category_id AND date_listed > i1.date_listed)
      AND (i2.image IS NULL OR (NOT EXISTS (SELECT * FROM item WHERE category_id = i1.category_id AND date_listed > i2.date_listed AND date_listed <> i1.date_listed)))
      AND (i3.image IS NULL OR (NOT EXISTS (SELECT * FROM item WHERE category_id = i1.category_id AND date_listed > i3.date_listed AND date_listed <> i1.date_listed AND date_listed <> i2.date_listed)))
      AND (i4.image IS NULL OR (NOT EXISTS (SELECT * FROM item WHERE category_id = i1.category_id AND date_listed > i4.date_listed AND date_listed <> i1.date_listed AND date_listed <> i2.date_listed AND date_listed <> i3.date_listed)))
) AS tblFourImages ON tblFourImages.category_id = category.id
--WHERE  --
ORDER BY id ASC;

现在......比较以下我介绍item_id键的地方,并使用Bill的解决方案将这些列表提供给“外部”查询。你可以看出为什么比尔的方法更好......

SELECT id, CategoryName, image, date_listed, item_id
FROM item I
LEFT OUTER JOIN category C ON C.id = I.category_id
WHERE I.item_id IN 
(
SELECT i1.item_id
FROM item i1
LEFT OUTER JOIN item i2
  ON (i1.category_id = i2.category_id AND i1.item_id < i2.item_id
      AND i1.sold = 'N' AND i2.sold = 'N'
      AND i1.image <> '' AND i2.image <> ''
      )
GROUP BY i1.item_id
HAVING COUNT(*) < 4
)
ORDER BY category_id, item_id DESC

答案 2 :(得分:3)

在其他数据库中,您可以使用ROW_NUMBER函数执行此操作。

SELECT
    category_id, image, date_listed
FROM
(
    SELECT
        category_id, image, date_listed,
        ROW_NUMBER() OVER (PARTITION BY category_id
                           ORDER BY date_listed DESC) AS rn
    FROM item
) AS T1
WHERE rn <= 4

不幸的是,MySQL不支持ROW_NUMBER函数,但你可以使用变量来模拟它:

SELECT
    category_id, image, date_listed
FROM
(
    SELECT
        category_id, image, date_listed,
        @rn := IF(@prev = category_id, @rn + 1, 1) AS rn,
        @prev := category_id
    FROM item
    JOIN (SELECT @prev := NULL, @rn = 0) AS vars
    ORDER BY category_id, date_listed DESC
) AS T1
WHERE rn <= 4

查看在线工作:sqlfiddle

它的工作原理如下:

  • 最初@prev设置为NULL,@ rn设置为0.
  • 对于我们看到的每一行,检查category_id是否与上一行相同。
    • 如果是,请增加行号。
    • 否则,请启动新类别并将行号重置为1.
  • 当子查询完成时,最后一步是过滤,以便只保留行号小于或等于4的行。

答案 3 :(得分:0)

不是很漂亮,但是:

SELECT image 
FROM item 
WHERE date_listed IN (SELECT date_listed 
                      FROM item 
                      ORDER BY date_listed DESC LIMIT 4)

答案 4 :(得分:0)

根据您的类别的常数,以下是最简单的路径

SELECT C.CategoryName, R.Image, R.date_listed
FROM
(
    SELECT CategoryId, Image, date_listed
    FROM 
    (
      SELECT CategoryId, Image, date_listed
      FROM item
      WHERE Category = 'Pet Supplies'
      ORDER BY date_listed DESC LIMIT 4
    ) T

    UNION ALL

    SELECT CategoryId, Image, date_listed
    FROM
    (        
      SELECT CategoryId, Image, date_listed
      FROM item
      WHERE Category = 'Pet Food'
      ORDER BY date_listed DESC LIMIT 4
    ) T
) RecentItemImages R
INNER JOIN Categories C ON C.CategoryId = R.CategoryId
ORDER BY C.CategoryName, R.Image, R.date_listed

答案 5 :(得分:0)

下面的代码显示了在循环中执行此操作的方法 它肯定需要大量的编辑,但我希望它有所帮助。

        declare @RowId int
 declare @CategoryId int
        declare @CategoryName varchar(MAX)

 create table PART (RowId int, CategoryId int, CategoryName varchar)
 create table  NEWESTFOUR(RowId int, CategoryId int, CategoryName varchar, Image image)
        select RowId = ROW_NUMBER(),CategoryId,CategoryName into PART from [Category Table]


        set @PartId = 0
 set @CategoryId = 0 
 while @Part_Id <= --count
 begin
   set @PartId = @PartId + 1
          SELECT @CategoryId = category_id, @CategoryName = category_name from PART where PartId = @Part_Id
          SELECT RowId = @PartId, image,CategoryId = @category_id, CategoryName = @category_name   FROM item into NEWESTFOUR where category_id = :category_id 
ORDER BY date_listed DESC LIMIT 4

 end
 select * from NEWESTFOUR
 drop table NEWESTFOUR
        drop table PART

答案 6 :(得分:0)

最近我遇到了类似的情况,我尝试了一个对我有用的查询,该查询独立于数据库

SELECT i.* FROM Item AS i JOIN Category c ON i.category_id=c.id WHERE
(SELECT count(*) FROM Item i1 WHERE 
i1.category_id=i.category_id AND 
i1.date_listed>=i.date_listed) <=3 
ORDER BY category_id,date_listed DESC;

这等效于运行2进行循环,并检查比其新的项目是否小于3

答案 7 :(得分:-1)

好吧,谷歌搜索快速答案后,至少在mysql

上是不可能的

这个reference

的主题

如果您害怕使服务器崩溃并希望代码执行得更好,也许您应该缓存该查询的结果