Question

我正在使用以下hive查询脚本来获取版本0.13.0

DROP TABLE IF EXISTS movies.movierating;
DROP TABLE IF EXISTS movies.list;
DROP TABLE IF EXISTS movies.rating;
DROP DATABASE IF EXISTS movies;

ADD JAR /usr/local/hadoop/hive/hive/lib/RegexLoader.jar;

CREATE DATABASE IF NOT EXISTS movies;

CREATE EXTERNAL TABLE IF NOT EXISTS movies.list (id STRING, name STRING, genre STRING)
ROW FORMAT SERDE 'com.cisco.hadoop.loaders.RegexSerDe'with SERDEPROPERTIES(
 "input.regex"="^(.*)\\:\\:(.*)\\:\\:(.*)$",
 "output.format.string"="%1$s %2$s %3$s");

 CREATE EXTERNAL TABLE IF NOT EXISTS movies.rating (id STRING, userid STRING, rating STRING, timestamp STRING)
 ROW FORMAT SERDE 'com.cisco.hadoop.loaders.RegexSerDe'
 with SERDEPROPERTIES(
 "input.regex"="^(.*)\\:\\:(.*)\\:\\:(.*)\\:\\:(.*)$",
 "output.format.string"="%1$s %2$s %3$s %4$s");

 LOAD DATA LOCAL INPATH 'ml-10M100K/movies.dat' into TABLE movies.list;
 LOAD DATA LOCAL INPATH 'ml-10M100K/ratings.dat' into TABLE movies.rating;

 CREATE TABLE movies.movierating(id STRING, name STRING, genre STRING, rating STRING);

 INSERT OVERWRITE TABLE movies.movierating
 SELECT list.id, list.name, list.genre, rating.rating from movies.list list LEFT JOIN movies.rating rating ON (list.id=rating.id) GROUP BY list.id;

问题是当我执行没有“GROUP BY”子句的脚本时，它可以正常工作。但是当我使用“GROUP BY”子句执行它时，我收到以下错误

FAILED: SemanticException [Error 10002]: Line 4:21 Invalid column reference 'name'

这里有什么想法吗？

感谢您的帮助

谢谢！

Answer 1

如果按列分组，则select语句只能选择a）该列，b）仅从该列派生的列，或c）应用于其他列的UDAF。

在这种情况下，您只能按list.id进行分组，因此当您尝试选择list.name时，该选项无效。以这种方式思考：如果您的列表包含以下两个条目，那该怎么办：

id|name |genre
--+-----+------
01|name1|comedy
01|name2|horror

您希望此查询返回什么：

select list.id, list.name, list.genre from list group by list.id;

在这种情况下，它是荒谬的。我猜测现实中的id是主键，但请注意，hive不知道这一点，因此上述数据集完全有效。

考虑到所有这些，我不清楚如何解决它，因为我不知道所需的输出。例如，让我们说没有组（只是连接），你有输出：

id|name |genre |rating
--+-----+------+-------
01|name1|comedy|'pretty good'
01|name1|comedy|'bad'
02|name2|horror|'9/10'
03|name3|action|NULL

您希望输出与群组相关联的是什么？你想通过小组来完成什么？

Answer 2

好的，让我看看我能否以更好的方式提出这个问题。

这是我的两张桌子

电影列表 - 包含电影信息

ID | Movie Name | Genre
1  | Movie 1    | comedy
2  | movie 2    | action
3  | movie 3    | thriller

我有评级表

MOVIE_ID | USER ID | RATING on 5 | TIMESTAMP
1        |  xyz    | 5           | 12345612
1        |  abc    | 4           | 23232312
2        |  zvc    | 1           | 12321123
2        |  zyx    | 2           | 12312312

我想做的是按以下方式获取输出：

Movie ID | Movie Name | Genre    | Rating Average
1        | Movie 1    | comedy   | 4.5 
2        | Movie 2    | action   | 1.5

我不是数据库专家但是我理解这一点，当你将数据组合在一起时，你需要将多个值转换为标量值或所有值，如果字符串应该相同吗？

例如，在我之前的案例中，我将它们组合在一起作为字符串。这对list.id，list.name和list.genre来说还可以，但是list.rating，总是会在这里给出一些问题（我刚刚和hive一起学习了PIG，所以分组的工作方式不同）

因此，为了解决这个问题，我提出了评级并将其平均并将其存储在浮动表中。看看下面的代码：

CREATE TABLE movies.movierating(id STRING, name STRING, genre STRING, rating FLOAT);

INSERT OVERWRITE TABLE movies.movierating
SELECT list.id, list.name, list.genre, AVG(cast(rating.rating as FLOAT)) from movies.list list LEFT JOIN movies.rating rating ON (list.id=rating.id) GROUP BY list.id, list.name,list.genre order by list.id DESC;

感谢您的解释。我可能会为下一个帖子保存以下问题，但这是我的观察结果：

在执行分组和联接时，整体作业的性能会降低，而不是在两个单独的查询中执行。对于同样的工作，我已经稍微更改了代码以首先执行分组，然后加入数据并且整个过程减少了40秒。早些时候需要140秒，现在需要100秒。有什么理由吗？

再次感谢您的解释。

Answer 3

我遇到了同样的问题：

org.apache.hadoop.hive.ql.parse.SemanticException: Invalid column reference "charge_province"

将“ charge_province”放入group by后，问题就消失了。我不知道为什么。

Hive：SemanticException [错误10002]：第3:21行无效的列引用'name'

3 个答案: