如何使用SPARK将JPG和PDF文件加载到HBASE?

时间:2019-05-09 13:06:10

标签: apache-spark hbase

我在HDFS中有图像文件,我需要将它们加载到HBase。我可以使用SPARK代替MapReduce来完成此操作吗?如果是这样,请提出建议。 Hadoop生态系统的新手。

我创建了一个MOB类型的Hbase表,其阈值为10MB。 此处介绍如何使用Shell命令行加载数据。 经过一些研究,有一些使用MapReduce的建议,但没有提供很多信息。

1 个答案:

答案 0 :(得分:1)

您可以使用Apache Tika ...以及Tika支持的sc.binaryFiles(filesPath)格式为formats

您需要的

  

图像格式ImageParser类使用标准的javax.imageio   此功能可从支持的图像格式中提取简单的元数据   Java平台。可以通过以下方式获取更复杂的图像元数据   使用元数据提取器的JpegParser和TiffParser类   库支持从Jpeg和Tiff提取Exif元数据   图片。   和

     

便携式文档格式PDFParser类解析器可移植文档   使用Apache PDFBox库格式化(PDF)文档。

带有Spark的示例代码,请参见my answer

me在此处给出的另一个示例代码答案,用于加载到hbase中