我目前正在跟踪我的湿工作(实验室工作),为每个实验类型的迭代创建一个.csv
文件,然后在列中输入基质样本,结果样本和实验变量;例如这是文件pcr_0055.csv
(这里" DNA样本"是进入的内容," ID"出来的内容)
ID, "thermocycler protocol", "pcr mix", "DNA sample", primers, comment
TP2pj0, TP2T6, TP2M2, Tpbp2, cre_fw5,
TP2pj1, TP2T6, TP2M2, Tpbp2, "cre_fw5, cre_fw3",
TP2pj2, TP2T6, TP2M2, Tpbp2, "cre_fw5, epcc_fw1",
TP2pj3, TP2T6, TP2M2, Tpbp3, cre_fw5,
TP2pj4, TP2T6, TP2M2, Tpbp3, "cre_fw5, cre_fw3",
TP2pj5, TP2T6, TP2M2, Tpbp3, "cre_fw5, epcc_fw1",
TP2pj6, TP2T6, TP2M2, TP2ph8, cre_fw5,
TP2pj7, TP2T6, TP2M2, TP2ph8, "cre_fw5, cre_fw3",
TP2pj8, TP2T6, TP2M2, TP2ph8, "cre_fw5, epcc_fw1",
TP2pj9, TP2T6, TP2M2, TP2ph9, cre_fw5,
TP2pj10,TP2T6, TP2M2, TP2ph9, "cre_fw5, cre_fw3",
TP2pj11,TP2T6, TP2M2, TP2ph9, "cre_fw5, epcc_fw1",
我正在使用grep
浏览我的文件,并且性能可以接受。
我在考虑重新组织我的数据,以便每个物质ID都有自己的.csv
,这样可以让我更好地跟踪留给我的音量,等等。更不用说文件名{ {1}}毫无意义。
我想知道的是:
答案 0 :(得分:3)
问题不在于什么数据库,而在于如何使用数据库。您使用了一个非常重要的词基础设施。
在关系数据库管理系统中,基本上有两种结构类型:
文件级数据库,包括MS Access等常用表单 和SQLite(开源);
服务器级数据库,包括SQL Server,Oracle,MySQL (开源),PostgreSQL(开源)和DB2等等。
请放心,所有上述SQL引擎都可以与Python一起使用,就像使用PHP,R和SAS等统计软件包一样。在appropriate database uses上查看这篇优秀的SQLite教程。
如何选择最佳类型取决于 您希望如何管理您的实验室数据。如果您不是为企业解决方案设计(即数百个事务/用户/ GB),许多人会同意,像PostgreSQL这样的客户端服务器系统可能过度。需要考虑的几个问题:
不可否认,我可能会过度思考你的过程,但要真正建立一个最佳的数据库解决方案,应该仔细决策。您不愿意将时间和资源投入到不适合您日常需求的基础架构中。祝你好运!
答案 1 :(得分:1)
答案 2 :(得分:0)
评论太长了。
您正在使用完整格式的CSV格式 - 支持字段中的逗号。根据我的经验,SQL Server不能很好地处理这种格式。我不认为Oracle也会这样做。在这些情况下,我将文件读入Excel并以制表符分隔格式保存。
另一方面,Postgres支持完整的CSV约定,包括转义字段。我不确定MySQL是否会这样做。