Question

执行INSERT时，Redshift不允许您插入比表中的目标字段更长/更宽的字符串值。观察：

CREATE TEMPORARY TABLE test (col VARCHAR(5));
-- result: 'Table test created'

INSERT INTO test VALUES('abcdefghijkl');
-- result: '[Amazon](500310) Invalid operation: value too long for type character varying(5);'

解决此问题的一种方法是转换值：

INSERT INTO test VALUES('abcdefghijkl'::VARCHAR(5));
-- result: 'INSERT INTO test successful, 1 row affected'

关于这一点的令人讨厌的部分是，现在我的所有代码都必须在每个INSERT上为这样的每个VARCHAR字段设置这些转换语句，否则应用程序代码必须在尝试构造查询之前截断字符串;无论哪种方式，这意味着列的宽度规范必须进入应用程序代码，这很烦人。

使用Redshift有没有更好的方法？如果有一些选项可以让服务器截断字符串并执行（并可能引发警告），就像它对MySQL的做法一样，那将是很棒的。

我能做的一件事就是将这些特定字段声明为非常大的VARCHAR，甚至可能是65535（最大值）。

create table analytics.testShort (a varchar(3));
create table analytics.testLong (a varchar(4096));
create table analytics.testSuperLong (a varchar(65535));

insert into analytics.testShort values('abc'); 
insert into analytics.testLong values('abc');
insert into analytics.testSuperLong values('abc');

-- Redshift reports the size for each table is the same, 4 mb

我发现这种方法的一个缺点是，如果通过/ join / etc在组中使用此列，将导致性能不佳：

https://discourse.looker.com/t/troubleshooting-redshift-performance-extensive-guide/326 （搜索VARCHAR）

我想知道如果你没有伤害，否则你打算永远不要在分组，加入等中使用这个字段。

我的场景中需要注意的一些事项：是的，我真的不关心截断时可能丢失的额外字符，不，我没有办法强制执行源文本的长度。我从外部来源捕获消息和URL，这些消息和URL通常在字符长度的某个范围内，但有时候会有更长的字符。如果它们被截断或不存储，在我们的应用程序中无关紧要。

Answer 1

自动截断字符串以匹配列宽的唯一方法是使用带有选项TRUNCATECOLUMNS的COPY命令

将列中的数据截断为适当的字符数它符合列规范。仅适用于带有a的列 VARCHAR或CHAR数据类型，行大小不超过4 MB。

否则，您必须使用以下两种方法之一来处理字符串的长度：

将您的值显式地CAST到您想要的VARCHAR：

INSERT INTO test VALUES(CAST('abcdefghijkl' AS VARCHAR(5)));
使用LEFT and RIGHT字符串函数截断字符串：

INSERT INTO test VALUES(LEFT('abcdefghijkl', 5));

注意： CAST应该是您的第一个选项，因为它可以正确处理多字节字符。 LEFT将根据字符数而不是字节进行截断，如果字符串中有多字节字符，则最终可能会超出限制你的专栏。

Redshift：在INSERT上自动截断VARCHAR值还是使用最大长度？

1 个答案: