我有一个理论问题。我有各种格式的文件(ODS,MS office,pdf,html),我想实现不是文件管理系统的ECM系统,而是持久保存元数据和文件数据的系统(各种语言)以统一的方式(xhtml)进入文件系统和数据库(仅元数据)并进行数据处理(索引,搜索)。
您将使用哪些技术以及如何进行?这些是我的选择:
仅使用Apache Tika - 解析这些文档并将元数据和数据提取为xhtml格式,然后使用Lucene或Solr进行索引和全文(大缺点是数据库持久性 - 元数据变化很大)
仅使用Apache Solr和Tika parsers - 我没有使用它的经验。它是否支持像Apache Nutch这样的数据库集成?
然后是Apache UIMA项目 - 很难找到引擎盖下的内容
使用已经使用Apache Tika的某些CMS(alfresco,apache jackrabbit) - 但我对它们没有多少经验。无论如何,我确信他们已经处理过Apache Tika本身不关心的问题(doc与docx或不同的元数据类型)。
我从Apache Tika获得xhtml格式后也可以使用像eXist db这样的原生XML数据库,但我不确定它是一个不错的选择,因为这些文档的结构相当平坦。 XML数据库用于更多分层文档持久性。
答案 0 :(得分:0)
如果您需要一个“开箱即用”的解决方案,您可以考虑使用像Camel这样的集成框架并建立一个用于从文件中提取实体的驼峰路由(使用tika)并通过jdbc将它们迁移到您的数据库。否则,它听起来像是一个典型的数据挖掘任务,从原始源数据开始,以提取的实体结束。