我是大型scala数据分析和存档的新手,所以我会问这个问题,看看我是否正确地看待事物。
当前要求:
未来要求:
我想提出一个相对简单的解决方案,我可以在以后使用其他部件扩展它,而无需重写位。理想情况下,我希望将每个部分都保留为简单的服务。
目前搜索是KEY,我对Elasticsearch有经验,但我会使用ES进行分布式搜索。
我有以下问题:
有没有办法一旦文件被添加到Hadoop我可以触发一个事件来将文件索引到Elasticsearch?
是否有一种更简单的方法可以监控数百个文件夹中的新文件并将它们推送到Elasticsearch?
我确信自己过于复杂,因为我是这个领域的新手。因此,我会欣赏一些我应该探索的想法/方向,以便做一些简单但未来证明的事情。
感谢您的期待!
此致