DynamoDB跨区域增量复制的管道失败

时间:2014-05-02 04:05:16

标签: sql amazon-web-services amazon-dynamodb hiveql amazon-data-pipeline

我正尝试从us-east-1到us-west-1实施跨区域复制。

我使用Amazon Data Pipeline中的跨区域复制模板每隔几个小时复制一个表格,但我无法进行增量复制工作。我必须在DefaultHiveCopyActivity1下的Activities下填写Filter SQL字段。该表包含一个名为timestamp的列,该列是一个格式为yyyy-MM-dd HH:mm:ss.SSS的字符串,其中包含请求的时间。

我一直试图将字符串转换为unix_timestamp并从unix_timestamp的当前值减去7200(因为管道活动应该每两小时运行一次因此找到表中的每条记录,时间戳为2几个小时前)。我使用此Filter SQL字段值:unix_timestamp(timestamp, "yyyy-MM-dd HH:mm:ss.SSS") > unix_timestamp() - 7200 管道失败。

我甚至尝试检查一个简单的请求,例如将以下内容放入Filter SQL字段(它自己添加反斜杠):timestamp = \"2014-04-30 22:55:41.301\" - 根据我应该输入的文档:一个Hive SQL语句片段,用于过滤要复制的DynamoDB或Amazon S3数据的子集。过滤器应该只包含谓词而不是以WHERE子句开头,因为AWS Data Pipeline会自动添加它。即使在表中存在具有该确切值的记录,该管道也会失败。从区域到区域没有SQL过滤器的完整表副本工作正常。

这是我得到的错误:FAILED: Parse Error: line 2:131 cannot recognize input near 'timestamp' ',' '"yyyy-MM-dd HH:mm:ss.SSS"' in function specification

http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-template-crossregionddbcopy.html http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-hivecopyactivity.html

1 个答案:

答案 0 :(得分:0)

HiveQL查询中的时间戳字段应该像这样反向添加,因为时间戳似乎是Hive中的关键字,而时间戳列名称被引用:unix_timestamp(`timestamp`, "yyyy-MM-dd HH:mm:ss.SSS") > unix_timestamp() - 7200