我正在使用IMDb数据查找一些所选电影的完整工作人员信息。
我有一张名为 movie 的表格,我在那里分离出符合我要求的电影,总共476行,其中 movie_id 是每部电影的唯一标识符。
我有一个名为 crew_info 的表,其中包含 movie_id , person_id 和 role_id 列。
作为第一步,我想创建一个新表,只隔离那些曾在我的 movie 表中处理过电影的人。我希望有一个不同人的列表,所以即使同一个人在 movie 上制作了很多电影,也没有重复。
我可以想到几种方法,并且不确定是否存在差异/哪种方式更好。首先,我创建了一个新表:
CREATE TABLE person
(
id INTEGER PRIMARY KEY AUTOINCREMENT,
person_id INTEGER,
person_name TEXT,
person_birth INTEGER
);
现在我想我需要做以下其中一项:
INSERT INTO person (person_id)
SELECT DISTINCT person_id
FROM cast_info
WHERE movie_id IN
(
SELECT movie_id
FROM cast_info
INTERSECT
SELECT movie_id
FROM movie
);
或者
INSERT INTO person (person_id)
SELECT DISTINCT person_id
FROM cast_info
INNER JOIN movie
ON cast_info.movie_id=movie.movie_id;
或者
INSERT INTO person (person_id)
SELECT DISTINCT person_id
FROM cast_info
WHERE EXISTS
(
SELECT movie_id
FROM cast_info
WHERE cast_info.movie_id=movie.movie_id
);
稍后,我打算使用类似的语句,使用其他相关表格交叉查询 person_name 和 person_birth 值来更新表。
这些表达式是否会产生相同的结果?如果没有,哪一个效果最好?
答案 0 :(得分:1)
您将从这三个中获得相同的结果。我会推荐INNER JOIN
,因为它最简单。性能的提升可能总是可以忽略不计,但查询2和3将需要少一个索引扫描。查询1将扫描cast_info两次。
要在之后更新表格,您可以执行以下操作:
UPDATE P
SET P.Person_Name = T.Person_Name
FROM Person P
INNER JOIN OtherTable T on T.Person_ID = P.Person_ID
当然,运行SELECT
总是很高兴,验证您的列,然后将前两行更改为更新并自信地解雇。
SELECT P.Person_ID, P.Person_Name, T.Person_ID, T.Person_Name
FROM Person P
INNER JOIN OtherTable T on T.Person_ID = P.Person_ID
答案 1 :(得分:1)
这种交叉是多余的
WHERE movie_id IN
(
SELECT movie_id
FROM cast_info
INTERSECT
SELECT movie_id
FROM movie
);
我认为联接是最直接的
INSERT INTO person (person_id)
SELECT DISTINCT person_id
FROM cast_info
INNER JOIN movie
ON cast_info.movie_id=movie.movie_id;
为什么呢?
CREATE TABLE person
( id INTEGER PRIMARY KEY AUTOINCREMENT
只需使用person_id作为主键
并使用生日日期