标签: apache-spark hdfs hbase
在我们公司中,我们拥有非常庞大的HBase(或多或少10 TB),可以收集多年的信息。由于配置错误或其他一些原因(没有人记得它的启动方式),此时数据库已停止,当我尝试通过Spark发出任何请求时,它只会冻结,并且永远不会返回结果,也不会因超时而关闭进程。我的工作是将数据转换为其他格式-实木复合地板文件或cassandra。有人可以帮我做到这一点吗?是否可以直接访问Hfile并将其一对一转换? Hbase是否有用于此类工作的API?请帮忙!我使用Spark,Scala