选择在sql中将表连接到自身的不同对

时间:2016-02-02 16:44:57

标签: sql join sqlite distinct

我有一个包含两行的表:IMDB_ID和Actor。我试图找到在3部或更多电影中共同观看的演员。名称对应该是唯一的,这意味着“演员A,演员B”和“演员B,演员A”是同一对,因此只应出现其中一个。这是表格中的几行,但不是整篇文章:

IMDB_ID     ACTOR      
----------  -----------
tt0111161   Tim Robbins
tt0111161   Morgan Free
tt0111161   Bob Gunton 
tt0111161   William Sad
tt0111161   Clancy Brow
tt0111161   Gil Bellows
tt0111161   Mark Rolsto
tt0111161   James Whitm
tt0111161   Jeffrey DeM
tt0111161   Larry Brand
tt0111161   Neil Giunto
tt0111161   Brian Libby
tt0111161   David Prova
tt0111161   Joseph Ragn
tt0111161   Jude Ciccol
tt0068646   Marlon Bran
tt0068646   Al Pacino  

我试过了:

SELECT DISTINCT movie_actor.actor, movie_actor.actor, COUNT(movie_actor.actor) AS occurrence 
   FROM movie_actor join movie_actor 
   ON movie_actor.imdb_id = movies.imdb_id 
   WHERE occurrence >= 3
     GROUP BY movie_actor.actor 
     ORDER BY occurrence DESC, movie_actor.actor ASC;

并收到一条操作错误说: 模糊列名:movie_actor.actor

更新

最终的工作解决方案如下(*注意单向不等式运算符,它可以防止反向重复对):

SELECT DISTINCT ma.actor, ma2.actor, COUNT(*) AS occurrence 
       FROM movie_actor ma join movie_actor ma2 
       ON ma.imdb_id = ma2.imdb_id 
       WHERE ma.actor > ma2.actor 
           GROUP BY ma2.actor, ma.actor 
           HAVING occurrence >= 3 
                ORDER BY occurrence DESC, ma2.actor ASC

1 个答案:

答案 0 :(得分:4)

使用自联接时应该使用表别名。但是,您的查询有很多问题,表明您在编写SQL时需要更多练习。一些好习惯:

  • 始终使用表名称缩写的表别名。
  • 始终限定列名称
  • 如果您有意,请记住使用having条款。

这里的SQL更接近你想要做的事情:

SELECT ma.actor, ma2.actor, COUNT(*) AS occurrence 
FROM movie_actor ma join
     movie_actor ma2
     ON ma.imdb_id = ma2.imdb_id 
GROUP BY ma.actor, ma2.actor
HAVING COUNT(*) >= 3
ORDER BY occurrence DESC, ma.actor ASC;