我目前正在开发一个Web应用程序。该要求类似于用户将上载excel或Csv文件,包含来自前端框架的大型数据集。
上传后,数据将根据许多参数进行处理,如复制检查,单个字段验证等。 用户应该能够以新生成的csv文件的形式立即基于过滤器下载结果。
我使用的技术是Hbase,用于存储用户信息,如姓名,电子邮件和电子邮件。所以。用户上传数据后,将以HDFS格式存储和处理数据。我在sparkjava web框架中编写的后端。现在我使用的数据处理引擎是MapReduce。
对于MapReduce,我已经用Java编写了多个Mapper,Reducers,Driver类,这些类存在于同一个项目目录中,但问题是我无法将MapReduce与我的后端集成。上传数据后,Mapreduce程序应该运行。我无法做到这一点。
任何人都可以建议我对此有任何想法。我是Hadoop的新手,所以请告诉我我是否做错了什么。建议一个更好的选择。任何帮助都会很棒。谢谢。