特别是,我想将Postgres日志中的所有INSERT,UPDATE和DELETE语句推送到AWS Hadoop集群,并有一种很好的方式来搜索它们以查看一行或多行的历史记录
我不是任何方式的Hadoop专家,所以如果这是一个红鲱鱼,请告诉我。
谢谢!
答案 0 :(得分:0)
使用flume将日志从RDS实例发送到Hadoop集群。使用 flume ,您可以使用 regex interceptor 来过滤事件并仅发送INSERT,UPDATE和DELETE语句。 Hadoop不会使您的数据可搜索,因此您必须使用Solr之类的内容。
您可以先将数据传输到Hadoop,然后运行一堆MapReduce作业以将数据插入Solr。或者您可以直接配置水槽以将数据写入Solr,请参阅下面的链接。
链接:
编辑:
似乎RDS实例没有SSH访问权限,这意味着您无法在RDS实例本身上本地运行水槽,但您必须定期get the logs of the RDS instance manually到机器(这可能是EC2实例) )配有水槽。