Redshift:在INSERT上自动截断VARCHAR值还是使用最大长度?

时间:2015-10-14 23:37:03

标签: text amazon-redshift

执行INSERT时,Redshift不允许您插入比表中的目标字段更长/更宽的字符串值。观察:

CREATE TEMPORARY TABLE test (col VARCHAR(5));
-- result: 'Table test created'

INSERT INTO test VALUES('abcdefghijkl');
-- result: '[Amazon](500310) Invalid operation: value too long for type character varying(5);'

解决此问题的一种方法是转换值:

INSERT INTO test VALUES('abcdefghijkl'::VARCHAR(5));
-- result: 'INSERT INTO test successful, 1 row affected'

关于这一点的令人讨厌的部分是,现在我的所有代码都必须在每个INSERT上为这样的每个VARCHAR字段设置这些转换语句,否则应用程序代码必须在尝试构造查询之前截断字符串;无论哪种方式,这意味着列的宽度规范必须进入应用程序代码,这很烦人。

使用Redshift有没有更好的方法?如果有一些选项可以让服务器截断字符串并执行(并可能引发警告),就像它对MySQL的做法一样,那将是很棒的。

我能做的一件事就是将这些特定字段声明为非常大的VARCHAR,甚至可能是65535(最大值)。

create table analytics.testShort (a varchar(3));
create table analytics.testLong (a varchar(4096));
create table analytics.testSuperLong (a varchar(65535));

insert into analytics.testShort values('abc'); 
insert into analytics.testLong values('abc');
insert into analytics.testSuperLong values('abc');

-- Redshift reports the size for each table is the same, 4 mb

我发现这种方法的一个缺点是,如果通过/ join / etc在组中使用此列,将导致性能不佳:

https://discourse.looker.com/t/troubleshooting-redshift-performance-extensive-guide/326 (搜索VARCHAR)

我想知道如果你没有伤害,否则你打算永远不要在分组,加入等中使用这个字段。

我的场景中需要注意的一些事项:是的,我真的不关心截断时可能丢失的额外字符,不,我没有办法强制执行源文本的长度。我从外部来源捕获消息和URL,这些消息和URL通常在字符长度的某个范围内,但有时候会有更长的字符。如果它们被截断或不存储,在我们的应用程序中无关紧要。

1 个答案:

答案 0 :(得分:11)

自动截断字符串以匹配列宽的唯一方法是使用带有选项TRUNCATECOLUMNS的COPY命令

  

将列中的数据截断为适当的字符数   它符合列规范。仅适用于带有a的列   VARCHAR或CHAR数据类型,行大小不超过4 MB。

否则,您必须使用以下两种方法之一来处理字符串的长度:

  1. 将您的值显式地CAST到您想要的VARCHAR:

    INSERT INTO test VALUES(CAST('abcdefghijkl' AS VARCHAR(5)));

  2. 使用LEFT and RIGHT字符串函数截断字符串:

    INSERT INTO test VALUES(LEFT('abcdefghijkl', 5));

  3. 注意: CAST应该是您的第一个选项,因为它可以正确处理多字节字符。 LEFT将根据字符数而不是字节进行截断,如果字符串中有多字节字符,则最终可能会超出限制你的专栏。