Question

我有2个文件，每个文件有2个字：＆＃34; word1＆＃34;和＆＃34; word2＆＃34;

他们是

XML

<text>
   <word id="word1">
     <file>File1Name.txt</file>
     <file>File2Name.txt</file>
     <file>File3Name.txt</file>
   </word>
   <word id="word2">
     <file>File1Name.txt</file>
     <file>File4Name.txt</file>
   </word>
</text>

CSV文件

word1, File1Name.txt, File2name.txt, File3Name.txt
word2, File1Name.txt, File4Name.txt

假设我在两种格式中都有100万个单词，我必须搜索一个单词。检索包含该字的所需文件的格式会更快？

Answer 1

嘿，我想把我的两分钱放在这里。 https://github.com/elastic/elasticsearch

是我强烈建议您考虑这样的事情。就性能而言，我建议使用XML或CSV格式的JSON。但是如果你要有一百万条记录。类似于具有非关系数据库的文档存储（例如MongoDB）会为您提供最可能的最快结果，特别是如果您的数据是平坦的。

或者，如果您正在加载到内存中，我会尝试使用某种类型的缓存解决方案，如果您有更多问题，请告诉我。像redis这样的东西可能对你有用。 http://redis.io/topics/introduction

哪个更快，XML搜索或CSV搜索单词索引？

1 个答案: