MongoDB是否具有可以存储PDF,文本或.doc / docx文档并搜索它们的功能 或者在内容中找到关键字的两个文档之间进行匹配?
例如:
我可能想要存储一个名为'claim.txt'的文档,该文档的值为
诊断代码,简短描述,日期和金额
我需要存储一个名为'physician_diagnosis.pdf'的文件,其中包含一个匹配的简短说明。
我想发出查询,我可以找到任何具有匹配日期的文档 和相同的诊断。 (例如'肺炎','12 / 12/2012')
使用它的API,MongoDB是否可以这样,或者我需要做一些预处理?
如果有可能,请您指出好的示例和文档。
答案 0 :(得分:1)
您的任务可能更适合像Solr(http://lucene.apache.org/solr/)这样的东西,它有许多不同文档的输入(http://wiki.apache.org/solr/ExtractingRequestHandler)。您将不得不编写一些代码来进行正确的提取。
MongoDB更适用于结构化数据 - 虽然我们称之为文档,但我们并不是指“PDF文档”或“word文档”。它只是支持我们称之为文档的嵌套字段类型的通用格式,而不是关系数据库行,它不允许这样做。