大规模静态文件(csv txt等)归档解决方案

时间:2016-04-24 19:22:39

标签: hadoop elasticsearch bigdata

我是大型scala数据分析和存档的新手,所以我会问这个问题,看看我是否正确地看待事物。

当前要求:

  • 我在文件系统中有大量静态文件。 Csv,Eml,Txt,Json
  • 出于存档/法律原因,我需要存储此数据
  • 我需要提供统一的搜索工具主要功能

未来要求:

  • 我需要使用其他元数据来丰富数据文件
  • 我需要对数据进行分析
  • 我可能需要从API等其他来源提取数据。

我想提出一个相对简单的解决方案,我可以在以后使用其他部件扩展它,而无需重写位。理想情况下,我希望将每个部分都保留为简单的服务。

目前搜索是KEY,我对Elasticsearch有经验,但我会使用ES进行分布式搜索。

我有以下问题:

  • 我应该将文件从静态存储复制到Hadoop吗?
  • 将数据保存在HBASE而不是单个文件中是否有任何优点?
  • 有没有办法一旦文件被添加到Hadoop我可以触发一个事件来将文件索引到Elasticsearch?

  • 是否有一种更简单的方法可以监控数百个文件夹中的新文件并将它们推送到Elasticsearch?

我确信自己过于复杂,因为我是这个领域的新手。因此,我会欣赏一些我应该探索的想法/方向,以便做一些简单但未来证明的事情。

感谢您的期待!

此致

0 个答案:

没有答案