我正在处理数千个5MB-100MB大小的纯文本日志文件,总共约1TB的数据,并有新数据传入。目标是开发一个Web UI,用户可以在其中提供搜索字符串,并且它将返回其中包含该搜索字符串的所有日志。显然搜索时间很关键,因此我希望每次查询的时间保持在5秒以内。
显然,这将需要将多台计算机群集在一起。我在考虑编写自己的代码,使主节点将这些日志拆分为多个连接的从节点,每个从节点将搜索其日志集,然后将各自的结果返回给主节点。似乎很简单。
但是我猜这已经解决了。是否有现有产品/软件可以执行此任务?像弹性搜索一样?
编辑:AWS的托管Elasticsearch似乎很合适,但我无法将所有这些日志上传到云中,因此必须是内部解决方案。