我正在抓取不同的行业数据并将数据存储到单个hbase表中。例如,我正在抓取电子和计算机行业,并存储在名为“industry_tbl”的表中。现在我想运行一个地图减少数据集,即电子和计算机行业,并生成减少器输出与收集的不同数据集,但目前hbase正在采取两个行业的整个数据,并给我减少的结果,我无法通过行业来区分。
有关如何解决此问题的任何帮助或想法?
答案 0 :(得分:0)
将行业作为您在映射器中发出的密钥的一部分。
答案 1 :(得分:0)
使行业成为您的hbase密钥中最重要的部分,并将其传递给您为map-reduce定义的SCAN
答案 2 :(得分:0)
您还可以在Hbase表上执行列扫描。 为此,请将特定行业的所有信息放在特定的行业列族中。
例如,我的行业表可能看起来像这样。
对于给定的行:cf1-science cf2-technology等。
这样,您的行业数据会在某些地区进行严格分区,从而缩短查询时间。
现在我只想使用Scan api查询并包含一个特定的列系列进行扫描。
因此扫描将仅返回与特定行业相关的详细信息。
在这种情况下,行仍将保持与之前相同的行。
希望这个解释有所帮助。