我需要写一个查询:
查找已发布电影的平均评分之间的差异 1980年之前以及1980年以后发行的电影的平均评分。 (确保计算每部电影的平均评分,然后是 1980年之前电影和电影之后平均电影的平均值。 不要只计算前后的整体平均评分 1980年。)
架构如下:
Movie ( mID, title, year, director )
English: There is a movie with
ID number mID, a title, a release year, and a director.
Reviewer ( rID, name )
English: The reviewer with ID number rID has a certain name.
Rating ( rID, mID, stars, ratingDate )
English: The reviewer rID gave the movie mID a
number of stars rating (1-5) on a certain ratingDate.
以下是我提出的查询。结果是正确的,但绝对不是一个很好的查询:
select t1.p1-t2.p2 from
(select avg(average) as p1 from
(select g.mid,g.average, year from
(select mid, avg(stars) as average from rating
group by mid) g, movie
where g.mid=movie.mid) j
where year >= 1980) t1,
(select avg(average) as p2 from
(select g.mid,g.average, year from
(select mid, avg(stars) as average from rating
group by mid) g, movie
where g.mid=movie.mid) j
where year < 1980) t2;
以下是我如何得出此查询。 首先,我编写了这个子查询来检索电影ID,该电影的平均评分,电影年份:
select g.mid,g.average, year from
(select mid, avg(stars) as average from rating
group by mid) g, movie
where g.mid=movie.mid
现在我需要使用相同的子查询来创建两个表,其中第一个表包含1980年以后电影的平均评分。第二个表包含1980年之前电影的平均评分。在顶级查询中,我减去这两个值。
问题是我在两个地方复制相同的代码。您能否从代码重复的角度和性能方面帮助优化代码?
答案 0 :(得分:1)
你可以这样做而不需要像这样重复:
Select
Avg(Case When m.Year >= 1980 Then a.stars Else Null End) -
Avg(Case When m.Year < 1980 Then a.stars Else Null End)
From (
Select
mid,
avg(stars) stars
From
rating
Group By
mid
) a
inner join
movie m
on m.mid = a.mid
您可能希望将内部查询移动到视图或公用表表达式(CTE)。根据您使用的dbms,您可能需要将星形转换为十进制类型,或者您可能会以整数算术获得所有内容。
评级表的(mid, stars)
索引对性能方面有帮助。
答案 1 :(得分:1)
采取一个平底船并假设SQL Server,有几件事情。指数非常重要,查询的编写方式也是如此。
一些CREATE TABLE语句
create table Movie ( mID int primary key clustered, title varchar(100), year int, director varchar(100) )
create table Reviewer ( rID int primary key clustered, name varchar(100) )
create table Rating ( rID int, mID int, stars int, ratingDate datetime , primary key clustered (rID, mID) )
我已经聚集在Movie表中的mID上,并且在评级表中的rID和mID字段上对您的查询进行了聚类。
索引:SQL需要获取电影的所有评级,因此评级表的更好的聚簇键将是 create table Rating(rID int,mID int,stars int,ratingDate datetime,primary key clustered(mID,rID))
如果您无法更改此类内容,请至少创建一个覆盖索引,该索引按mID索引并包含星标列。
接下来,您的查询...有几种方法可以编写它 - 最好查看查询计划输出。这是编写查询的一种方法
with
MovieAverage as (
select mID, movieAvgStars = avg(stars)
from Rating
group by mID
),
Pre1980 as (
select MovieAvgStars = avg( movieAvgStars )
from MovieAverage
inner join Movie
on MovieAverage.mID = Movie.mID
where Movie.year < 1980
),
IncAndPost1980 as (
select MovieAvgStars = avg( movieAvgStars )
from MovieAverage
inner join Movie
on MovieAverage.mID = Movie.mID
where Movie.year >= 1980
)
select IncAndPost1980.MovieAvgStars - Pre1980.MovieAvgStars
from IncAndPost1980 cross JOIN Pre1980
可能有其他调整方法,但没有样本数据等,很难正确判断。
答案 2 :(得分:0)
没有任何效率考虑,也没有任何特定的DBMS(很少有NATURAL
加入和CTE):
; WITH g AS
( SELECT mid, AVG(stars) AS average
FROM rating
GROUP BY mid
)
, j AS
( SELECT mid, average, year
FROM g NATURAL JOIN movie
)
, t1 AS
( SELECT AVG(average) AS p1
FROM j
WHERE year >= 1980
)
, t2 AS
( SELECT AVG(average) AS p2
FROM j
WHERE year < 1980
)
SELECT t1.p1 - t2.p2 AS result
FROM t1 CROSS JOIN t2
;