algorithm - 使用哪种数据结构

使用哪种数据结构

时间：2013-04-27 18:37:39

标签： algorithm data-structures datastore

我的系统本地驱动器（例如：c，d，e）中有数百万个文件。现在要搜索文件，我们可以使用Windows的内置工具或linux中的“find”命令。如果我想设计我自己的“查找”程序，它应首先扫描所有目录并将信息存储在某个文件或数据库中。现在，无论何时我想搜索文件，我们首先需要从数据库或文件中加载信息，然后进行搜索。

我需要建议来决定用于存储目录结构的数据结构，然后可以加载和查询给定的文件名。

由于搜索基于文件名，我想到了使用Hashmap，其中key是filename，value是full-path。使用Trie会使搜索速度变慢。另一个想法是使用Inverted索引。但不确定哪一次更好。

感谢。

2 个答案:

答案 0 :(得分：0)

哈希表对此非常有用，因为它有查找的O（1）（以及插入和删除）。但问题是你不能使用哈希表来进行“远程搜索”。 “远程搜索”将类似于“查找以扩展名cpp结尾的所有文件”。如果这对您来说不是问题，那么我建议实现哈希表。

答案 1 :(得分：0)

您不能使用基于内存的结构（如普通哈希表）。内存结构适合搜索，但您必须将整个数据集加载到内存中才能搜索一条记录。它非常慢，有时数据集太大而无法存储在内存中。

我建议您尝试一些基于磁盘的结构，如B-Tree或External Memory Hashmap。它们针对磁盘进行了优化，您可以在不加载整个数据集的情况下搜索记录。

如果您不想自己编写基于磁盘的搜索结构，请尝试使用Google的LevelDB。