应用错误收集

我有一个理论问题。我有各种格式的文件（ODS，MS office，pdf，html），我想实现不是文件管理系统的ECM系统，而是持久保存元数据和文件数据的系统（各种语言）以统一的方式（xhtml）进入文件系统和数据库（仅元数据）并进行数据处理（索引，搜索）。

您将使用哪些技术以及如何进行？这些是我的选择：

仅使用Apache Tika - 解析这些文档并将元数据和数据提取为xhtml格式，然后使用Lucene或Solr进行索引和全文（大缺点是数据库持久性 - 元数据变化很大）

仅使用Apache Solr和Tika parsers - 我没有使用它的经验。它是否支持像Apache Nutch这样的数据库集成？

然后是Apache UIMA项目 - 很难找到引擎盖下的内容

使用已经使用Apache Tika的某些CMS（alfresco，apache jackrabbit） - 但我对它们没有多少经验。无论如何，我确信他们已经处理过Apache Tika本身不关心的问题（doc与docx或不同的元数据类型）。

我从Apache Tika获得xhtml格式后也可以使用像eXist db这样的原生XML数据库，但我不确定它是一个不错的选择，因为这些文档的结构相当平坦。 XML数据库用于更多分层文档持久性。