我应该为大文本文件选择哪个数据库

时间:2013-12-26 10:15:37

标签: django mongodb postgresql text-analysis database

我的问题与我的实验项目的技术选择有关。

我将在我的数据库中存储大量文本,解析并分析文本并提取所需信息。完成此过程后,数据将通过restful api发送到另一个项目。

我将在第二个项目中使用django的postgres,但我不确定它是否是文本分析的正确选择,我不确定是否应该将两个项目分开。

我应该选择什么? Postgres,mongo,还有什么?

2 个答案:

答案 0 :(得分:1)

据我所知,任何关系型dbms完全能够毫不费力地处理大文本。谷歌使用MySQL(它切换到MariaDB),我认为它不是特别慢:)

MongoDB和类似产品用于统计数据。在一个统计数据中,丢失少量数据或者有一些不正确的数据是可以的 - 它只是增加了一点统计误差。在你的情况下,我认为这是一个问题。

所以:如果你正在使用PostgreSQL,我真的认为你不应该改变它。

答案 1 :(得分:0)

我认为文件系统是存储文件的理想场所。
与数据库的关联,可以通过完整的文件名来完成。

一些RDMS还提供访问文件系统的API,如Oracle BFILESqlServer FILESTREAM