我需要读取JMS activemq数据并将其推送到hadoop,以便可以通过REST API公开它。 <应该更快>
我们有带有3个数据节点的简单apache hadoop集群
下面是考虑性能的方法。...
由于性能问题,我们正在努力避免HIVE。
从activemq提取数据并将其放在HDFS上(因为将数据推送到配置单元非常耗时)
之后,使用spark sql进行一些处理并将其存储在另一个HDFS位置(此数据需要通过REST API公开)..或者我应该将该表保留在缓存中,以便可以通过以下方式公开REST API还是怎么样?如果我再次运行它将发生什么情况,我将把这些持久化的数据覆盖/替换吗?请提出建议。