用什么来搜索10亿个文本文件?

时间:2012-11-04 07:32:26

标签: search

可以告诉我用什么编程语言来搜索十亿个文本文档。 txt文件大小是3千字节。关于C ++ / Java呢?搜索只能通过txt文件的名称进行。

谢谢大家的答案,我决定使用C ++

2 个答案:

答案 0 :(得分:2)

特定语言可能不适合在此处使用。

有许多搜索工具可以很好地搜索大型数据集,可以被许多不同的编程语言使用。

Sphinx就是一个例子,它是一个搜索服务器。您可以使用各种语言的索引,例如Ruby ThinkingSphinx。来自Apache的Lucene是另一种搜索技术,它适用于用Java编写的应用程序(但它有.NETRuby个端口。)

答案 1 :(得分:0)

假设您的意思是搜索十亿分之一的单个文档,您几乎可以使用所有可用的编程语言。简单的选择可能是python和java。一种更易于访问的方法可能就是使用shell进行搜索,并运行像sudo find / -name "filename"这样的bash命令。