提示此问题的问题与创建类似于构建IR系统时使用的巨大倒置指数有关。 IR社区的一般口号是关系数据库不适合构建IR系统。无论如何,在查看posgres时,行元组开销是23字节+填充(请参阅Postgres FAQ中的“从典型文本文件存储数据需要多少数据库磁盘空间?”)。这对我的工作来说太大了(不缩放)。
顺便提一下,我的数据集是17个文本,需要4-5个表,具体取决于问题的切片方式。我记得在sqlite中尝试了一个模式,并且db文件打破了100个gigs
我很想知道Sql Server / MySql / Sqlite / Berkeley db(所有访问方法)/ Berkley Db的sqlite3接口/ Kyoto,Tokyo db和Firebird的每行开销是多少。 / strong>任何一个人都无法回答我的问题,除非有人像我一样好奇地调查此事。
修改