Apache Lucene可以替换用于文本处理的ETL工具

时间:2016-07-31 04:54:44

标签: apache lucene compass-lucene

我得到了一个15GB的平面文件提取及其规范,它有助于识别每一行记录以及如何分割每一行以收集所需信息。我打算使用ETL工具,因为我认为这个批量文件的文本处理无法在java中实现。但我现在开始阅读Lucene。现在真的很困惑。以下是我的疑惑:

  1. Apache Lucene能否处理15GB平面文本文件而不会出现内存问题。
  2. 15GB平面文件的性能基准是什么来读取每一行,识别标识符并根据标识符拆分行数据并将其加载到映射的数据库中。
  3. 我可以使用Apache Lucene执行此任务或使用ETL工具吗?

0 个答案:

没有答案