假设我不是像Hive或HBase这样的工具(Spark仍然无法使用Hive索引进行优化),那么将数据写入HDFS以便更快地访问该数据的最佳方法是什么。
我当时想保存许多不同的文件,文件的名称由按键标识。假设我们有一个数据库,其中包含按姓氏和名字标识的人员。也许我可以用名字和姓氏的首字母保存文件。这样,我们将拥有26x26 = 676个文件。因此,例如,如果我们想查看Alan Walker的记录,则只需加载文件AW。这是个好方法还是有更好的方法来做这种事情?
答案 0 :(得分:1)
我相信索引就是您所需要的。在HDFS中,就像在数据库中一样,索引在插入时会产生一些开销,但会使查询更快。
HDFS没有任何索引,因为它应该是DFS而不是数据库,但是您的提及要求已经通过第三程序实现了
有许多与HDFS配合使用的索引工具,例如,您可以查看 APACHE SOLR
以下是帮助您继续前进的教程:https://lucene.apache.org/solr/guide/6_6/running-solr-on-hdfs.html