使用MongoDB信息提取,索引和搜索PDF,文字和文本文档

时间:2013-05-19 16:33:13

标签: mongodb

MongoDB是否具有可以存储PDF,文本或.doc / docx文档并搜索它们的功能 或者在内容中找到关键字的两个文档之间进行匹配?

例如:

我可能想要存储一个名为'claim.txt'的文档,该文档的值为
 诊断代码,简短描述,日期和金额 我需要存储一个名为'physician_diagnosis.pdf'的文件,其中包含一个匹配的简短说明。

我想发出查询,我可以找到任何具有匹配日期的文档 和相同的诊断。 (例如'肺炎','12 / 12/2012')

使用它的API,MongoDB是否可以这样,或者我需要做一些预处理?

如果有可能,请您指出好的示例和文档。

1 个答案:

答案 0 :(得分:1)

您的任务可能更适合像Solr(http://lucene.apache.org/solr/)这样的东西,它有许多不同文档的输入(http://wiki.apache.org/solr/ExtractingRequestHandler)。您将不得不编写一些代码来进行正确的提取。

MongoDB更适用于结构化数据 - 虽然我们称之为文档,但我们并不是指“PDF文档”或“word文档”。它只是支持我们称之为文档的嵌套字段类型的通用格式,而不是关系数据库行,它不允许这样做。