执行INSERT时,Redshift不允许您插入比表中的目标字段更长/更宽的字符串值。观察:
CREATE TEMPORARY TABLE test (col VARCHAR(5));
-- result: 'Table test created'
INSERT INTO test VALUES('abcdefghijkl');
-- result: '[Amazon](500310) Invalid operation: value too long for type character varying(5);'
解决此问题的一种方法是转换值:
INSERT INTO test VALUES('abcdefghijkl'::VARCHAR(5));
-- result: 'INSERT INTO test successful, 1 row affected'
关于这一点的令人讨厌的部分是,现在我的所有代码都必须在每个INSERT上为这样的每个VARCHAR字段设置这些转换语句,否则应用程序代码必须在尝试构造查询之前截断字符串;无论哪种方式,这意味着列的宽度规范必须进入应用程序代码,这很烦人。
使用Redshift有没有更好的方法?如果有一些选项可以让服务器截断字符串并执行(并可能引发警告),就像它对MySQL的做法一样,那将是很棒的。
我能做的一件事就是将这些特定字段声明为非常大的VARCHAR,甚至可能是65535(最大值)。
create table analytics.testShort (a varchar(3));
create table analytics.testLong (a varchar(4096));
create table analytics.testSuperLong (a varchar(65535));
insert into analytics.testShort values('abc');
insert into analytics.testLong values('abc');
insert into analytics.testSuperLong values('abc');
-- Redshift reports the size for each table is the same, 4 mb
我发现这种方法的一个缺点是,如果通过/ join / etc在组中使用此列,将导致性能不佳:
https://discourse.looker.com/t/troubleshooting-redshift-performance-extensive-guide/326 (搜索VARCHAR)
我想知道如果你没有伤害,否则你打算永远不要在分组,加入等中使用这个字段。
我的场景中需要注意的一些事项:是的,我真的不关心截断时可能丢失的额外字符,不,我没有办法强制执行源文本的长度。我从外部来源捕获消息和URL,这些消息和URL通常在字符长度的某个范围内,但有时候会有更长的字符。如果它们被截断或不存储,在我们的应用程序中无关紧要。
答案 0 :(得分:11)
自动截断字符串以匹配列宽的唯一方法是使用带有选项TRUNCATECOLUMNS的COPY命令
将列中的数据截断为适当的字符数 它符合列规范。仅适用于带有a的列 VARCHAR或CHAR数据类型,行大小不超过4 MB。
否则,您必须使用以下两种方法之一来处理字符串的长度:
将您的值显式地CAST到您想要的VARCHAR:
INSERT INTO test VALUES(CAST('abcdefghijkl' AS VARCHAR(5)));
使用LEFT and RIGHT字符串函数截断字符串:
INSERT INTO test VALUES(LEFT('abcdefghijkl', 5));
注意: CAST
应该是您的第一个选项,因为它可以正确处理多字节字符。 LEFT
将根据字符数而不是字节进行截断,如果字符串中有多字节字符,则最终可能会超出限制你的专栏。