我在应用程序中有一个场景;
当前的实现是在Ruby中使用Background作业完成的。但我看到其中有以下问题;
在这种情况下,Spark或Hadoop可以提供哪些帮助或更好的选择。
请详细说明一些好的理由。
更新: 根据评论,我需要进一步阐述。以下是我认为Spark或Hadoop的原因。
以上所有观点都被认为是Hadoop& amp;的内置架构的一部分。火花。所以我在思考这些工具。
答案 0 :(得分:0)
在我看来,我会尝试使用Pentaho Data Integrator(PDI)(或Talend)。
它们是用于解决像您这样的问题的可视化工具。并有一个免费版本的可下载表单SourceForge(只需解压缩并按下spoon.bat按钮)。
他们可以从FTP和HTTP(以及其他)获取数据,解码JSON,并编写像Postgres这样的数据库。 PDI有一个免费的插件,能够开箱即用地运行Ruby代码,因此您可以节省启动开发。
PDI还具有现成的Spark和Hadoop接口,因此如果您需要更多的金属解决方案,您可以在以后透明地实现您的hadoop / sparkle服务器。
PDI是为大量数据加载而构建的,可让您控制并发和远程服务器。