如何最好地组织字典的目录结构?

时间:2016-03-07 18:17:46

标签: git file dictionary hash directory

我需要创建一个英语词典。我计划在文本文件中存储字典条目(每个条目一个文件)并将这些文件存储在文件系统中。我正在寻找组织目录结构的最佳方式。

我的第一个猜测如下:

/a
  apple.txt
/b
  book.txt
/c
  can.txt
... 

但是,由于英语中大约有250000个单词,这种结构并不好(因为目录中大约有9000个单词)。

那么,在目录中组织文件的最佳方法是什么?我是否能够将文件存储在GIT存储库中(不会太慢)?

2 个答案:

答案 0 :(得分:1)

因为git会为每个文件创建一个节点,我认为目录结构不会影响git的访问速度,速度取决于你所有文件的数量。您应该根据您将用于查找字典的算法来集中目录结构的设计。

答案 1 :(得分:1)

是的,你可以将它存储在GIT存储库中,它不应该影响速度,虽然我认为你的意思是你是否可以将这样的存储库推送到git主机(你可以)。 GitHub和GitLab上托管了大量比字典大的存储库。

至于结构,我不建议将每个单词放在单独的文件中。使用某种格式将大量单词放入一个文件中会更容易,用分隔符分隔每个单词。这样,您的主词典程序可以扫描几个文件,而不必重复打开和关闭文件。它还可以使您的存储库更容易导航。