您可以轻松地将AWS RDS Postgres日志发送到AWS Hadoop集群吗?

时间:2014-11-05 02:01:06

标签: hadoop amazon-web-services rds

特别是,我想将Postgres日志中的所有INSERT,UPDATE和DELETE语句推送到AWS Hadoop集群,并有一种很好的方式来搜索它们以查看一行或多行的历史记录

我不是任何方式的Hadoop专家,所以如果这是一个红鲱鱼,请告诉我。

谢谢!

1 个答案:

答案 0 :(得分:0)

使用flume将日志从RDS实例发送到Hadoop集群。使用 flume ,您可以使用 regex interceptor 来过滤事件并仅发送INSERT,UPDATE和DELETE语句。 Hadoop不会使您的数据可搜索,因此您必须使用Solr之类的内容。

您可以先将数据传输到Hadoop,然后运行一堆MapReduce作业以将数据插入Solr。或者您可以直接配置水槽以将数据写入Solr,请参阅下面的链接。

链接:

  1. Using flume solr sink
  2. Flume Regex Filtering Interceptor
  3. 编辑:

    似乎RDS实例没有SSH访问权限,这意味着您无法在RDS实例本身上本地运行水槽,但您必须定期get the logs of the RDS instance manually到机器(这可能是EC2实例) )配有水槽。